여러 회귀 분석을 사용하여 여러 다른 PC에서 하나의 주성분 (PC)을 예측할 수 있습니까?


15

얼마 전 R-help 메일 링리스트의 사용자가 회귀에서 PCA 점수를 사용하는 건전성에 대해 물었습니다. 사용자는 일부 PC 점수를 사용하여 다른 PC의 변형을 설명하려고합니다 (자세한 내용은 여기 참조 ). 대답은 아니요, PC가 서로 직교하기 때문에 소리가 들리지 않는다는 것입니다.

누군가 이것이 왜 더 자세하게 설명 할 수 있습니까?


1
r태그 를 넣었 습니까? "왜 그렇게 되었습니까?" PC는 상관 관계가 없습니다. 즉, 직교적이고 부가 적이므로 한 PC를 다른 PC와 예측할 수 없습니다. 수식을 찾고 있습니까?
aL3xa

나는 PCA를 이해하기 위해 논리의 원리에 대해 궁금해했다. R 사람들이 이것을 읽고 R 예제를 보여줄 수 있기 때문에 R 태그를 사용했습니다. :)
Roman Luštrik

오, 왜 그렇게 말하지 않았 니? 당신을 본 적이 statmethods.net/advstats/factor.html
aL3xa

답변:


11

주성분은 모든 요인 (X)의 가중 선형 조합입니다.

예 : PC1 = 0.1X1 + 0.3X2

각 요인에 대해 하나의 구성 요소가 있습니다 (일반적으로 적은 수를 선택하더라도).

구성 요소는 설계 상 상관 관계가 0 (직교)이되도록 작성됩니다.

따라서 구성 요소 PC1은 구성 요소 PC2의 변형을 설명해서는 안됩니다.

Y 변수와 X의 PCA 표현에는 다중 공선 성이 없으므로 회귀 분석을 수행 할 수 있습니다. 그러나 이것은 해석하기 어려울 수 있습니다.

OLS를 위반하는 관측치보다 많은 X가있는 경우 성분을 회귀하고 가장 적은 수의 가장 높은 변동 성분을 선택할 수 있습니다.

Jollife의 주요 성분 분석 주제에 대한 매우 심층적이고 인용 된 책

이것은 또한 좋습니다 : http://www.statsoft.com/textbook/principal-components-factor-analysis/


11

주요 구성 요소는 정의에 따라 직교하므로 모든 PC 쌍은 상관 관계가 없습니다.

그러나 설명 변수가 많은 경우 PCA를 회귀에 사용할 수 있습니다. 이것들은 적은 수의 주성분으로 줄이고 회귀에서 예측 자로 사용됩니다.


그렇다면 FA가 아니겠습니까?
Roman Luštrik

3
FA는 회귀가 아닙니다. 많은 설명 변수에서 계산 된 주요 구성 요소에 대해 회귀 된 응답 변수를 말합니다. 주요 구성 요소 자체는 FA의 요인과 밀접한 관련이 있습니다.
Rob Hyndman

죄송합니다. 내 의견에 더 정확해야합니다. 설명 변수를 적은 수의 PC로 줄일 수 있다는 당신의 글은 "인자 분석"이라는 벨을 울 렸습니다.
Roman Luštrik

n 개의 변수가있는 세트에서 n 개의 PC를 추출 할 수 있지만 유지하려는 개수를 결정할 수 있습니다. 예를 들어 Guttman-Keiser 기준은 다음과 같이 말합니다. 고유 값 (분산)이 1보다 큰 모든 PC를 유지합니다. .
aL3xa

7

조심해서 ... PC가 서로 직각으로 구성되어 있다고해서 패턴이 없거나 한 PC가 다른 PC에 대해 무언가를 "설명"하는 것처럼 보이지는 않습니다.

미식 축구 표면에 균일하게 분포 된 많은 수의 점을 설명하는 3D 데이터 (X, Y, Z)를 고려해보십시오 (미국 축구를 본 적이없는 사람에게는 구형이 아닌 타원체 임). X, Y, Z가 축구의 장축을 따르지 않도록 축구가 임의의 구성에 있다고 상상해보십시오.

주요 구성 요소는 PC1을 축구의 장축, 즉 데이터의 가장 분산을 나타내는 축을 따라 배치합니다.

풋볼의 긴 축을 따라 PC1 치수의 어떤 점이든 PC2와 PC3으로 표시되는 평면 슬라이스는 원을 나타내야하며이 원형 슬라이스의 반경은 PC1 치수에 따라 다릅니다. PC1에서 PC2 또는 PC3의 회귀는 전 세계적으로 제로 계수를 제공해야하지만 축구의 작은 부분에는 적용되지 않아야합니다 .... PC1과 PC2의 2D 그래프에 "관심있는"제한 경계가 있음이 분명합니다. 즉, 2 값, 비선형 및 대칭입니다.


3

데이터가 고차원적이고 시끄럽고 샘플 수가 많지 않으면 과적 합의 위험이 있습니다. 이러한 경우 PCA (데이터 분산의 지배적 인 부분을 캡처 할 수 있으며 직교성이 문제가되지 않음) 또는 요인 분석 (데이터의 기본 설명 변수를 찾을 수있는)을 사용하여 데이터 차원을 줄이고 그들과 함께 회귀 모델을 훈련 시키십시오.

요인 분석 기반 접근 방법은이 백서 요인 회귀 모델이 모델비모수 적 베이지안 버전을 참조 하여 관련 요인의 "참"수 (또는 PCA의 경우 주요 구성 요소)를 사전에 알고 있다고 가정하지 않습니다 .

많은 경우에, 감독 된 차원 축소 (예 : Fisher Discriminant Analysis )는 단순한 PCA 또는 FA 기반 접근 방식보다 개선 될 수 있습니다. 이는 차원 축소를 수행하면서 레이블 정보를 사용할 수 있기 때문입니다.


0

예측 PC 점수가 예측 변수 PC 점수와 다른 변수 또는 사례에서 추출 된 경우이를 추출 할 수 있습니다 . 만약 그것이 예측되고 예측자가 직교 적이 지 않거나 적어도 그들이 필요하지 않다면 상관 관계는 물론 보장되지 않는다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.