iid (균일 또는 정상) 데이터에 대한 고유 값의 추정 분포

내가 데이터 세트를 가지고 있다고 가정 $d$ 치수 (예 : $d=20$ 각 측정 기준이 iid가되도록 $X_i \sim U[0;1]$ (또는 각 차원 $X_i \sim \mathcal N[0;1]$ ) 및 서로 독립적입니다.

이제이 데이터 세트에서 임의의 객체를 그리고 $k=3\cdot d$ 이 세트에서 가장 가까운 이웃 및 계산 PCA. 우리가 기대할 수있는 것과는 달리, 고유 값은 모두 동일하지 않습니다. 균일 한 20 차원에서 일반적인 결과는 다음과 같습니다.

0.11952316626613427, 0.1151758808663646, 0.11170020254046743, 0.1019390988585198,
0.0924502502204256, 0.08716272453538032, 0.0782945015348525, 0.06965903935713605, 
0.06346159593226684, 0.054527131148532824, 0.05346303562884964, 0.04348400728546128, 
0.042304834600062985, 0.03229641081461124, 0.031532033468325706, 0.0266801529298156, 
0.020332085835946957, 0.01825531821510237, 0.01483790669963606, 0.0068195084468626625

정규 분포 데이터의 경우 결과를 총계의 합계로 재조정 할 때 결과는 매우 유사 해 보입니다. $1$ (그만큼 $\mathcal N[0;1]^d$ 분포는 처음에 분명히 더 큰 차이를 보입니다).

이 동작을 예측하는 결과가 있는지 궁금합니다. 일련의 고유 값이 다소 규칙적인지, 예상되는 고유 값 수와 예상 값과 크게 다른 고유 값이 있는지 테스트를 찾고 있습니다.

주어진 (작은) 샘플 크기 $k$ , 두 변수에 대한 상관 계수가 유의하면 결과가 있습니까? iid 변수조차도 때때로 0이 아닌 결과를 나타냅니다. $k$ .

normal-distribution uniform eigenvalues

— 종료-익명-무스
소스

흠, 더 적은 시그 피그로 그 결과를 인쇄 할 수 있습니까? 나는 그것들을 쉽게 파싱 할 수 없다.

— shabbychef

보시다시피 크기가 관심의 대상입니다. 순진하게도, 그들은 모두 같은 크기를 가질 것으로 기대합니다.

— Anony - 무스 - 종료 될

랜덤 매트릭스에 대한 고유 값 분포에 대한 많은 문헌이 있습니다 (랜덤 매트릭스 이론을 인터넷 검색 할 수 있음). 특히 Marcenko-Pastur 분포는 공분산 행렬의 고유 값 분포를 예측합니다. $i.i.d.$ 변수의 수와 관측치가 무한대로 진행됨에 따라 평균이 0이고 분산이 동일한 데이터. Wigner의 반원 분포와 밀접한 관련이 있습니다.

— 남자
소스