내가 여기서 생각한 것은 모든 변수가 서로 양의 상관 관계가 있다는 것입니다. 이 경우 첫 번째 PC는 종종 모든 변수의 평균에 매우 가깝습니다. 모든 변수가 정확히 동일한 상관 계수 와 양의 상관 관계를 갖는 경우 첫 번째 PC는 모든 변수의 평균에 정확히 비례합니다 .c
이 간단한 경우에, 실제로 당신이 요구하는 관계를 수학적으로 도출 할 수 있습니다. 크기 의 상관 행렬 을 다음과 같이 고려하십시오 .첫 번째 고유 벡터는 과 같습니다. 이는 모든 변수의 [스케일 된] 평균에 해당합니다. 고유 값은 입니다. 물론 모든 대각선 요소의 합으로 주어진 경우 모든 고유 값의 합입니다 (예 : . 따라서 첫 번째 PC에 의해 설명 된 분산의 비율은n×n
⎛⎝⎜⎜⎜1cccc1cccc1cccc1⎞⎠⎟⎟⎟.
(1,1,1,1)⊤/n−−√λ1=1+(n−1)c∑λi=nR2=1n+n−1nc≈c.
따라서 가장 간단한이 경우 첫 번째 PC에 의한 설명 된 분산의 비율은 평균 상관 관계와 100 % 상관 관계가 있으며 큰 경우 거의 같습니다. 당신의 음모에서 우리가 보는 것입니다.n
큰 행렬의 경우 상관 관계가 정확히 동일하지 않더라도이 결과는 거의 유지 될 것으로 예상됩니다.
최신 정보. 질문에 게시 된 그림을 사용하여 임을 알면 을 추정 할 수도 있습니다 . 와 취 하면 됩니다. OP는 데이터가 "DAX 주가 지수"라고 말했다. 그것을 인터넷 검색, 우리는보고 가 분명히으로 구성되어 있음 변수. 일치하지 않습니다.nn=(1−c)/(R2−c)c=0.5R2−c=0.02n=2530