원래 99 (100-1) 변수의 하위 집합을 선택하지 않았습니다.
각 주성분은 모든 99 개의 예측 변수 (x 변수, IV, ...)의 선형 조합입니다. 처음 40 개의 주성분을 사용하는 경우 각 성분 은 99 개의 원래 예측 변수의 함수입니다. (적어도 일반적인 PCA 의 경우 Zou, Hastie 및 Tibshirani 의 SPCA 와 같이 희소 / 정규화 된 버전이 있으므로 적은 수의 변수를 기반으로 구성 요소를 생성합니다.)
양의 상관 관계가있는 두 변수의 간단한 경우를 생각해 보자. 단순성을 위해 동일하게 변한다고 가정한다. 그런 다음 첫 번째 주성분은 두 변수의 합의 (분수) 배수이고 두 번째 변수는 두 변수의 차이의 (분수) 배수입니다. 둘이 동일하게 가변적이지 않은 경우, 첫 번째 주요 구성 요소는 더 가변적 인 구성 요소에 더 많은 가중치를 부여하지만 여전히 둘 다 포함합니다.
따라서 99 개의 x- 변수로 시작하여 각 원래 변수에 해당 가중치를 적용하여 40 개의 주요 구성 요소를 계산합니다. [내 논의에서 NB는 와 가 이미 중앙에 있다고 가정 합니다.]와이엑스
그런 다음 다중 회귀 문제에서와 마찬가지로 40 개의 새로운 변수를 마치 자체 예측 변수 인 것처럼 사용합니다. (실제로 추정값을 얻는 더 효율적인 방법이 있지만 계산 측면을 제쳐두고 기본 아이디어를 다루겠습니다)
두 번째 질문과 관련하여 "PCA의 역전"이 무엇을 의미하는지 명확하지 않습니다.
PC는 원래 변형의 선형 조합입니다. 원래 변이가 에 있고 를 계산 한다고 가정합니다 (여기서 는 이고 는 사용중인 구성 요소에 대한 주요 구성 요소 가중치를 포함하는 행렬 임 ). 견적 회귀 통하여.엑스지= X여엑스n × 99여99 × 4040와이^= Zβ^PC
그런 다음 say (where ), 원래 예측 변수의 함수로 작성할 수 있습니다. 그것이 '역전'이라는 의미인지는 모르겠지만 와 의 원래 관계를 보는 의미있는 방법 입니다. 물론 원래 X에 대한 회귀를 추정하여 얻은 계수와 같지 않습니다. PCA를 수행하여 정규화합니다. 이 방법으로 각 원본 X에 대한 계수를 얻을 수 있지만 장착 한 구성 요소 수의 df 만 있습니다.와이^= Zβ^PC= X여β^PC= Xβ^※β^※= Wβ^PC와이엑스
주성분 회귀 분석 에 대한 Wikipedia도 참조하십시오 .