답변:
다음 기사 : Cangelosi와 Goriely의 cDNA 마이크로 어레이 데이터 에 적용한 주요 구성 요소 분석에서 구성 요소 유지 는 연구에서 구성 요소의 수를 감지하기위한 표준 엄지 손가락 규칙에 대한 개요를 제공합니다. (분모 그림, 총 분산 비율 설명, 평균 고유 값 규칙, 로그 고유 값 다이어그램 등) 대부분 R에서 구현하기가 매우 간단합니다.
일반적으로 scree plot이 매우 결정적이지 않으면 "독을 선택"하면됩니다. 실제로 사용하는 PC의 수는 실제로 문제에 대한 이해에 달려 있기 때문에 모든 데이터에 대해 절대적인 권리 또는 잘못된 것은 없습니다. 차원을 "실제로"알 수있는 유일한 데이터 세트는 직접 구성한 데이터 세트입니다. :-) 하루가 끝날 때 주요 구성 요소는 RSS 메트릭 (부산물로 각 구성 요소가 주요 변형 모드를 나타내도록하는 경우) 하에서 주어진 수의 구성 요소를 포함하거나 제외하여 데이터의 최적 분해를 제공합니다. 문제의 차원에 대한 인식을 나타냅니다.
개인적 취향에 관해서는 PCA 에 대한 확률 적 해석을 기반 으로 한이 PCA에 대한 차원의 자동 선택에 대한 Minka의 접근 방식을 좋아 하지만 주어진 차원에 대해 데이터의 가능성을 모델링하려고 시도하는 게임에 들어갑니다. (이 이론적 근거를 따르려면 링크에서 Matlab 코드를 제공합니다.)
데이터를 더 이해하려고 노력하십시오. 예. 데이터 집합 변동의 99.99 %가 모형의 공변량으로 인한 것이라고 생각하십니까? 그렇지 않을 경우 전체 분산의 작은 비율을 나타내는 치수를 포함 할 필요는 없습니다. 실제로 구성 요소가 눈에 띄는 차이의 임계 값 미만으로 변동을 반영한다고 생각하십니까? 다시 말해, 해당 구성 요소를 분석에 포함시키는 데 관련성이 거의 없음을 의미합니다.
어쨌든 행운을 빌어 데이터를 신중하게 확인하십시오. (그들을 플로팅하는 것도 놀라운 일입니다.)
이 질문에 대한 최초의 질문과 답변이 있기 때문에 지난 몇 년 동안이 문제에 대한 매우 훌륭한 후속 연구가있었습니다. Gavish와 Donoho의 다음 논문을 강력히 추천합니다. 특이 값에 대한 최적의 하드 임계 값은 4 / sqrt (3)입니다.
결과는 점근 분석 (예 : 데이터 매트릭스가 무한대로 커짐에 따라 잘 정의 된 최적의 솔루션이 있음)을 기반으로하지만 작고 현실적인 크기의 데이터 세트에 대해 무소음 최적의 프로 시저가 작동하는 것을 보여주는 인상적인 수치 결과를 보여줍니다. 모델.
그들은 또한 논문에서 사각형이 아닌 경우를 설명합니다. 여기에는 멋진 코드 부록 (MATLAB)이 있지만 R 또는 다른 곳에서 알고리즘을 쉽게 구현할 수 있습니다. https://purl.stanford.edu/vg705qn9070
주의 사항 :
Kaiser의 기준 (1보다 큰 모든 고유 값)의 문제점은 추출 된 요소의 수는 추가 요소 중 많은 것이 잡음인지 여부에 관계없이 일반적으로 배터리의 항목 또는 스케일 수의 1/3 정도라는 것입니다. 병렬 분석과 스 크리 기준은 일반적으로 추출 할 요소의 수를 결정하는보다 정확한 절차입니다 (Harmon 및 Ledyard Tucker의 고전 텍스트와 Wayne Velicer의 최신 연구 결과에 따름).
psy
or 또는psych
패키지를 참조하십시오 . 병렬 분석 및 Velicer의 MAP 테스트를 보다 일반적으로 사용하십시오.