11 개의 변수가있는 데이터 세트가 있으며 데이터를 줄이기 위해 PCA (직교)가 수행되었습니다. 두 가지 주요 구성 요소 (PC)가 데이터를 설명하기에 충분하고 나머지 구성 요소는 정보가 충분하지 않다는 주제와 스 크리 플롯 (아래 참조)에 대한 내 지식을 유지하기 위해 구성 요소의 수를 결정하는 것이 분명했습니다.
병렬 분석을 사용한 스 크리 플롯 : 100 개의 시뮬레이션 (빨간색)을 기반으로 고유 값 (녹색) 및 시뮬레이션 된 고유 값을 관찰했습니다. Scree plot은 3 대의 PC를, 병렬 테스트는 처음 2 대의 PC만을 나타냅니다.
보시다시피 차이의 48 % 만 처음 두 PC에서 캡처 할 수 있습니다.
첫 2 대의 PC에 의한 첫 번째 평면에서의 플롯 관찰은 계층 적 응집 클러스터링 (HAC) 및 K- 평균 클러스터링을 사용하여 3 개의 다른 클러스터를 나타냈다. 이 세 군집은 문제의 문제와 매우 관련이 있으며 다른 연구 결과와도 일치합니다. 따라서 분산의 48 %만이 다른 모든 것을 포착한다는 사실을 제외하고는 엄청나게 훌륭했습니다.
내 두 명의 검토 자 중 한 사람은 다음과 같이 말했습니다. 분산의 48 % 만 설명 할 수 있고 필요한 것보다 적기 때문에 이러한 결과에 크게 의존 할 수 없습니다.
질문
어떤 거기에 필요한 유효 PCA에 의해 캡처해야합니다 얼마나 많은 편차의 값은? 사용중인 도메인 지식 및 방법론에 의존하지 않습니까? 설명 된 분산의 단순한 가치를 기반으로 전체 분석의 장점을 판단 할 수 있습니까?
노트
- 데이터는 RT-qPCR (Real-Time Quantitative Polymerase Chain Reaction)이라는 분자 생물학에서 매우 민감한 방법론에 의해 측정 된 유전자의 11 가지 변수입니다.
- R을 사용하여 분석을 수행 하였다.
- 마이크로 어레이 분석, 화학 분석, 분광 분석 등의 분야에서 실제 문제에 대한 개인적인 경험을 바탕으로 한 데이터 분석가의 답변은 대단히 높이 평가됩니다.
- 가능한 한 참고 문헌으로 답변을 지원하는 것을 고려하십시오.