나는 분류기에 전달 해야하는 14000 데이터 포인트 (치수)를 포함하는 10 명 (100 샘플)에 대해 10 개의 신호 / 사람이있는 시나리오를 보았습니다. 이 데이터의 차원을 줄이고 싶습니다. PCA가 그렇게하는 것 같습니다. 그러나 샘플 수가 차원 수보다 큰 PCA의 예만 찾을 수있었습니다. SVD를 사용하여 PC를 찾는 PCA 응용 프로그램을 사용하고 있습니다. 100x14000 데이터 세트를 전달하면 101 대의 PC가 반환되므로 대부분의 크기가 무시됩니다. 이 프로그램은 처음 6 개의 PC에 분산의 90 %가 포함되어 있음을 나타냅니다.
이 101 PC에 본질적으로 모든 분산이 포함되어 있고 나머지 치수는 무시할 수 있다는 합리적인 가정입니까?
내가 읽은 논문 중 하나는 내 것과 비슷한 (약간 품질은 낮지 만) 데이터 세트를 사용하여 원래 정보의 96 %를 유지하면서 4500 크기를 80으로 줄일 수 있다고 주장합니다. 이 논문은 사용 된 PCA 기술의 세부 사항에 대해 손을 흔들고 3100 개의 샘플 만 사용 가능했으며 실제로 PCA를 수행하는 데 사용 된 것 (분류 단계에서 편향을 제거하기 위해)보다 적은 샘플을 믿어야 할 이유가 있습니다.
PCA가 높은 차원의 낮은 표본 크기 데이터 세트와 함께 사용되는 방식입니까? 모든 의견은 대단히 감사하겠습니다.