왜 내 첫 번째 PC에서 설명하는 분산의 양이 평균 쌍별 상관 관계에 가깝습니까?


9

첫 번째 주성분과 상관 행렬의 평균 상관 관계는 무엇입니까?

예를 들어, 경험적 응용에서 평균 상관 관계는 첫 번째 주성분의 분산 비율 (첫 번째 고유 값)과 총 분산 (모든 고유 값의 합계)의 비율과 거의 같습니다.

수학적 관계가 있습니까?

아래는 실험 결과의 차트입니다. 여기서 상관 관계는 15 일 롤링 기간 동안 계산 된 DAX 주가 지수 구성 요소 반품 간의 평균 상관 관계이고 설명 된 차이는 15 일 롤링 기간 동안 계산 된 첫 번째 주성분에 의해 설명 된 분산의 비율입니다.

이것이 CAPM과 같은 일반적인 위험 요소 모델로 설명 될 수 있습니까?

여기에 이미지 설명을 입력하십시오


1
많은 상관 관계가 음수 이거나 0에 가까울 때 어떤 일이 발생한다고 생각 하십니까? 예를 들어, 상관 관계가없는 이변 량 정규 데이터를 생성합니다. 왜 분산 비율과 그 제로 상관 관계가있을 것으로 기대하십니까?
whuber

답변:


6

평균 상관 도와 첫 번째 PC의 고유 값 사이의 관계는 존재하지만 고유하지는 않다고 생각합니다. 나는 그것을 추론 할 수있는 수학자가 아니지만, 적어도 직관이나 생각이 생길 수있는 출발점을 표시 할 수 있습니다.

표준화 된 변수를 유클리드 공간에 벡터로 배치하고 (축이 관측되는 축소 된 공간) 상관 관계는 두 벡터 사이코사인 입니다.

여기에 이미지 설명을 입력하십시오

그리고 벡터는 표준화로 인해 모든 단위 길이이기 때문에 코사인은 서로에 대한 벡터의 투영입니다 (왼쪽 그림에서 3 개의 변수로 표시됨). 제 1 회 PC는, 그것에 제곱 예측의 합을 극대화하는이 공간에서 같은 라인이다 의라는 부하를; 이 합은 첫 번째 고유 값입니다.

따라서 왼쪽에있는 3 개의 투영 평균과 오른쪽에있는 3 개의 제곱 투영의 합 (또는 평균) 사이의 관계를 설정하면 평균 상관 관계와 고유 값 사이의 관계에 대한 질문에 대답하게됩니다.


6

내가 여기서 생각한 것은 모든 변수가 서로 양의 상관 관계가 있다는 것입니다. 이 경우 첫 번째 PC는 종종 모든 변수의 평균에 매우 가깝습니다. 모든 변수가 정확히 동일한 상관 계수 와 양의 상관 관계를 갖는 경우 첫 번째 PC는 모든 변수의 평균에 정확히 비례합니다 .c

이 간단한 경우에, 실제로 당신이 요구하는 관계를 수학적으로 도출 할 수 있습니다. 크기 의 상관 행렬 을 다음과 같이 고려하십시오 .첫 번째 고유 벡터는 과 같습니다. 이는 모든 변수의 [스케일 된] 평균에 해당합니다. 고유 값은 입니다. 물론 모든 대각선 요소의 합으로 주어진 경우 모든 고유 값의 합입니다 (예 : . 따라서 첫 번째 PC에 의해 설명 된 분산의 비율은n×n

(1cccc1cccc1cccc1).
(1,1,1,1)/nλ1=1+(n1)cλi=n
R2=1n+n1ncc.

따라서 가장 간단한이 경우 첫 번째 PC에 의한 설명 된 분산의 비율은 평균 상관 관계와 100 % 상관 관계가 있으며 큰 경우 거의 같습니다. 당신의 음모에서 우리가 보는 것입니다.n

큰 행렬의 경우 상관 관계가 정확히 동일하지 않더라도이 결과는 거의 유지 될 것으로 예상됩니다.


최신 정보. 질문에 게시 된 그림을 사용하여 임을 알면 을 추정 할 수도 있습니다 . 와 취 하면 됩니다. OP는 데이터가 "DAX 주가 지수"라고 말했다. 그것을 인터넷 검색, 우리는보고 가 분명히으로 구성되어 있음 변수. 일치하지 않습니다.nn=(1c)/(R2c)c=0.5R2c=0.02n=2530

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.