내가 데이터 세트를 가지고 있다고 가정 치수 (예 : 각 측정 기준이 iid가되도록 (또는 각 차원 ) 및 서로 독립적입니다.
이제이 데이터 세트에서 임의의 객체를 그리고 이 세트에서 가장 가까운 이웃 및 계산 PCA. 우리가 기대할 수있는 것과는 달리, 고유 값은 모두 동일하지 않습니다. 균일 한 20 차원에서 일반적인 결과는 다음과 같습니다.
0.11952316626613427, 0.1151758808663646, 0.11170020254046743, 0.1019390988585198,
0.0924502502204256, 0.08716272453538032, 0.0782945015348525, 0.06965903935713605,
0.06346159593226684, 0.054527131148532824, 0.05346303562884964, 0.04348400728546128,
0.042304834600062985, 0.03229641081461124, 0.031532033468325706, 0.0266801529298156,
0.020332085835946957, 0.01825531821510237, 0.01483790669963606, 0.0068195084468626625
정규 분포 데이터의 경우 결과를 총계의 합계로 재조정 할 때 결과는 매우 유사 해 보입니다. (그만큼 분포는 처음에 분명히 더 큰 차이를 보입니다).
이 동작을 예측하는 결과가 있는지 궁금합니다. 일련의 고유 값이 다소 규칙적인지, 예상되는 고유 값 수와 예상 값과 크게 다른 고유 값이 있는지 테스트를 찾고 있습니다.
주어진 (작은) 샘플 크기 , 두 변수에 대한 상관 계수가 유의하면 결과가 있습니까? iid 변수조차도 때때로 0이 아닌 결과를 나타냅니다..
1
흠, 더 적은 시그 피그로 그 결과를 인쇄 할 수 있습니까? 나는 그것들을 쉽게 파싱 할 수 없다.
—
shabbychef
보시다시피 크기가 관심의 대상입니다. 순진하게도, 그들은 모두 같은 크기를 가질 것으로 기대합니다.
—
Anony - 무스 - 종료 될