얼마 전 R-help 메일 링리스트의 사용자가 회귀에서 PCA 점수를 사용하는 건전성에 대해 물었습니다. 사용자는 일부 PC 점수를 사용하여 다른 PC의 변형을 설명하려고합니다 (자세한 내용은 여기 참조 ). 대답은 아니요, PC가 서로 직교하기 때문에 소리가 들리지 않는다는 것입니다.
누군가 이것이 왜 더 자세하게 설명 할 수 있습니까?
얼마 전 R-help 메일 링리스트의 사용자가 회귀에서 PCA 점수를 사용하는 건전성에 대해 물었습니다. 사용자는 일부 PC 점수를 사용하여 다른 PC의 변형을 설명하려고합니다 (자세한 내용은 여기 참조 ). 대답은 아니요, PC가 서로 직교하기 때문에 소리가 들리지 않는다는 것입니다.
누군가 이것이 왜 더 자세하게 설명 할 수 있습니까?
답변:
주성분은 모든 요인 (X)의 가중 선형 조합입니다.
예 : PC1 = 0.1X1 + 0.3X2
각 요인에 대해 하나의 구성 요소가 있습니다 (일반적으로 적은 수를 선택하더라도).
구성 요소는 설계 상 상관 관계가 0 (직교)이되도록 작성됩니다.
따라서 구성 요소 PC1은 구성 요소 PC2의 변형을 설명해서는 안됩니다.
Y 변수와 X의 PCA 표현에는 다중 공선 성이 없으므로 회귀 분석을 수행 할 수 있습니다. 그러나 이것은 해석하기 어려울 수 있습니다.
OLS를 위반하는 관측치보다 많은 X가있는 경우 성분을 회귀하고 가장 적은 수의 가장 높은 변동 성분을 선택할 수 있습니다.
Jollife의 주요 성분 분석 주제에 대한 매우 심층적이고 인용 된 책
이것은 또한 좋습니다 : http://www.statsoft.com/textbook/principal-components-factor-analysis/
주요 구성 요소는 정의에 따라 직교하므로 모든 PC 쌍은 상관 관계가 없습니다.
그러나 설명 변수가 많은 경우 PCA를 회귀에 사용할 수 있습니다. 이것들은 적은 수의 주성분으로 줄이고 회귀에서 예측 자로 사용됩니다.
조심해서 ... PC가 서로 직각으로 구성되어 있다고해서 패턴이 없거나 한 PC가 다른 PC에 대해 무언가를 "설명"하는 것처럼 보이지는 않습니다.
미식 축구 표면에 균일하게 분포 된 많은 수의 점을 설명하는 3D 데이터 (X, Y, Z)를 고려해보십시오 (미국 축구를 본 적이없는 사람에게는 구형이 아닌 타원체 임). X, Y, Z가 축구의 장축을 따르지 않도록 축구가 임의의 구성에 있다고 상상해보십시오.
주요 구성 요소는 PC1을 축구의 장축, 즉 데이터의 가장 분산을 나타내는 축을 따라 배치합니다.
풋볼의 긴 축을 따라 PC1 치수의 어떤 점이든 PC2와 PC3으로 표시되는 평면 슬라이스는 원을 나타내야하며이 원형 슬라이스의 반경은 PC1 치수에 따라 다릅니다. PC1에서 PC2 또는 PC3의 회귀는 전 세계적으로 제로 계수를 제공해야하지만 축구의 작은 부분에는 적용되지 않아야합니다 .... PC1과 PC2의 2D 그래프에 "관심있는"제한 경계가 있음이 분명합니다. 즉, 2 값, 비선형 및 대칭입니다.
데이터가 고차원적이고 시끄럽고 샘플 수가 많지 않으면 과적 합의 위험이 있습니다. 이러한 경우 PCA (데이터 분산의 지배적 인 부분을 캡처 할 수 있으며 직교성이 문제가되지 않음) 또는 요인 분석 (데이터의 기본 설명 변수를 찾을 수있는)을 사용하여 데이터 차원을 줄이고 그들과 함께 회귀 모델을 훈련 시키십시오.
요인 분석 기반 접근 방법은이 백서 요인 회귀 모델 및 이 모델 의 비모수 적 베이지안 버전을 참조 하여 관련 요인의 "참"수 (또는 PCA의 경우 주요 구성 요소)를 사전에 알고 있다고 가정하지 않습니다 .
많은 경우에, 감독 된 차원 축소 (예 : Fisher Discriminant Analysis )는 단순한 PCA 또는 FA 기반 접근 방식보다 개선 될 수 있습니다. 이는 차원 축소를 수행하면서 레이블 정보를 사용할 수 있기 때문입니다.
r
태그 를 넣었 습니까? "왜 그렇게 되었습니까?" PC는 상관 관계가 없습니다. 즉, 직교적이고 부가 적이므로 한 PC를 다른 PC와 예측할 수 없습니다. 수식을 찾고 있습니까?