다중 공선 성에서 PCA가 불안정합니까?


25

회귀 상황에서 상관 관계가 높은 변수 세트가있는 경우 추정 계수의 불안정성으로 인해 일반적으로 "나쁜"것이라는 것을 알고 있습니다 (결정자는 0에 가까워짐에 따라 분산이 무한대로 진행됩니다).

내 질문은이 "나쁜 점"이 PCA 상황에서 지속되는지 여부입니다. 공분산 행렬이 특이 해짐에 따라 특정 PC의 계수 / 부하 / 무게 / 고유 벡터가 불안정하거나 임의 / 비 독특 해 집니까? 특히 첫 번째 주요 구성 요소 만 유지되고 다른 모든 구성 요소가 "노이즈"또는 "다른 것"또는 "중요하지 않은"것으로 간주되는 경우에 관심이 있습니다.

나는 그것이 0 또는 분산이 0에 가까운 몇 가지 주요 구성 요소로 남겨질 것이기 때문에 그렇게 생각하지 않습니다.

쉽게 볼 수있는 것은 2 가지 변수가있는 단순한 극단적 인 경우에는 해당되지 않습니다. 완벽하게 상관되어 있다고 가정하십시오. 그런 다음 첫 번째 PC는 정확한 선형 관계가되고 두 ​​번째 PC는 첫 번째 PC와 직교하며 모든 관측치에 대해 모든 PC 값이 0과 같습니다 (예 : 분산 0). 더 일반적인지 궁금합니다.


8
당신의 추론은 좋습니다. 실제로, 둘 이상의 고유 값이 거의 일치 할 때 불안정성이 발생할 것으로 예상 할 수 있으며, 그에 따라 고유 값이 결정되지만 고유 벡터는 존재하지 않으므로 부하도 마찬가지입니다. 수치적인 이유로, 최대 고유 값에 비해 크기가 매우 작은 고유 값 (및 고유 벡터)도 불안정합니다.
whuber

@ whuber 의견은 귀하의 질문에 답변하지만, 완벽하게 상관 된 2 개의 변수의 경우 PCA에 아무런 문제가 없어야합니다. 공분산 행렬은 순위가 1이므로 0이 아닌 고유 값이 1 개뿐이므로 PC는 1 개뿐입니다. 원래 변수는이 PC의 배수가됩니다. 유일한 문제는 수치 안정성 일 수 있습니다.
mpiktas

실제로, 실제로 상관 관계가 높은 변수보다 약간 상관 관계가있는 변수가 있으면 더 나빠질 것입니다. PC를 순서대로 제거하는 NIPALS와 같은 알고리즘을 사용하는 경우 수치 적으로도
JMS

한 가지는 "높은 상관 관계"와 "동선"은 동일하지 않습니다. 관련된 변수가 두 개 이상인 경우, 동일 선형성은 상관 관계를 의미하지 않습니다.
Peter Flom-Monica Monica 복원

답변:


11

답은 더 간단한 용어로 주어질 수 있습니다. 다중 회귀는 선형 대수의 관점에서 볼 때 pca보다 한 단계 더 높으며 두 번째 단계에서 불안정성이 존재합니다.

RLLt

L
L


이것은 대략 내가 찾던 것입니다. 사실, 당신의 대답을 읽으면 또 다른 설명을 생각할 수 있습니다 : 공분산 / 상관 행렬의 결정 요인에 관계없이 회전은 수치 적으로 안정적입니다. 또한 좌표축의 최상의 회전을 찾는 것처럼 PCA를 구성 할 수 있기 때문에 수치 적으로 안정적입니다.
chanceislogic

예를 들어 Stan Mulaik의 "인자 분석의 근거"에서 내가 소스를 올바르게 기억한다면 pc-rotation (Jacobi-method)의 안정성이 명시 적으로 언급되었습니다. 나 자신의 요소 분석 구현에서는 cholesky 이후 회전에 의해 모든 작업을 수행합니다. PCA, Varimax, 심지어 "주축 인수 분해"(SPSS의 PAF)도 회전을 기준으로 다시 빌드 할 수 있습니다. 복수 회귀 분석이 콜레 스키 인자 L을 기반으로하고 독립 변수를 포함하는 L 부분이 PC 위치에있는 경우 다중 공선 성을보다 잘 제어 할 수 있습니다.
Gottfried Helms

3

PCA는 종종 목적을위한 수단입니다. 다중 회귀에 대한 입력 또는 클러스터 분석에 사용됩니다. 귀하의 경우에는 PCA의 결과를 사용하여 회귀를 수행하는 것에 대해 이야기하고 있다고 생각합니다.

이 경우 PCA를 수행하는 목적은 다중 선형을 없애고 다중 회귀에 대한 직교 입력을 얻는 것입니다. 놀랍게도 이것을 주성분 회귀라고합니다. 여기서 모든 원래 입력이 직교 인 경우 PCA를 수행하면 또 다른 직교 입력 세트가 제공됩니다. 따라서; PCA를 수행하는 경우 입력에 다중 공선 성이 있다고 가정합니다.

λi^ithλi^p

참고 문헌

Johnson & Wichern (2001). 응용 다변량 통계 분석 (제 6 판). 프렌 티스 홀.


6
OP가 PCR 후인지 확실하지 않습니다. PCA는 또한 다변량 데이터 세트 (모델링 프레임 워크에서 후속 사용을 위해 데이터 축소를 수행하기 위해 반드시 필요한 것은 아님)를 요약하는 좋은 방법입니다. 이는 대부분의 정보를 유지하면서 VC 매트릭스를 낮은 차수로 근사합니다. 문제는 다음과 같습니다. 공선 성 효과가 있어도 처음 몇 개의 고유 값과 PC를 해석 할 때 맞습니까 (원래 변수의 선형 조합으로)? 귀하의 답변이 OP의 질문을 직접 다루지 않는 것 같습니다.
chl

2
일반적으로 PCA에 대한 좋은 대답이지만 PCA 가 최종 제품인 경우는 어떻습니까? 즉, 목표는 단일 PC를 출력하는 것입니다. @Chl는 질문에 자신의 해석과 돈에 대한 권리
probabilityislogic

@chl 질문에 대한 귀하의 답변은 무엇입니까? "일부 공선 효과가 있어도 처음 몇 개의 고유 값과 PC를 해석 할 때 맞습니까?" 나는 차원 축소를 수행 할 때 상관 관계가 높은 변수를 유지하는 것이 좋은 생각인지 알아 내려고하기 때문에 묻습니다. 때로는 두 변수가 동일한 잠재 변수에 의해 구동된다는 이론을 알 때 잠재 변수의 효과를 두 번 계산하지 않도록 변수 중 하나를 제거해야합니다. 상관 관계가있는 변수를 유지해야 할 때 생각하려고합니다.
Amatya
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.