이후 분석을 수행하기 위해 PCA가 캡처 한 분산이 필요한가?


15

11 개의 변수가있는 데이터 세트가 있으며 데이터를 줄이기 위해 PCA (직교)가 수행되었습니다. 두 가지 주요 구성 요소 (PC)가 데이터를 설명하기에 충분하고 나머지 구성 요소는 정보가 충분하지 않다는 주제와 스 크리 플롯 (아래 참조)에 대한 내 지식을 유지하기 위해 구성 요소의 수를 결정하는 것이 분명했습니다.

여기에 이미지 설명을 입력하십시오
병렬 분석을 사용한 스 크리 플롯 : 100 개의 시뮬레이션 (빨간색)을 기반으로 고유 값 (녹색) 및 시뮬레이션 된 고유 값을 관찰했습니다. Scree plot은 3 대의 PC를, 병렬 테스트는 처음 2 대의 PC만을 나타냅니다.

여기에 이미지 설명을 입력하십시오

보시다시피 차이의 48 % 만 처음 두 PC에서 캡처 할 수 있습니다.

첫 2 대의 PC에 의한 첫 번째 평면에서의 플롯 관찰은 계층 적 응집 클러스터링 (HAC) 및 K- 평균 클러스터링을 사용하여 3 개의 다른 클러스터를 나타냈다. 이 세 군집은 문제의 문제와 매우 관련이 있으며 다른 연구 결과와도 일치합니다. 따라서 분산의 48 %만이 다른 모든 것을 포착한다는 사실을 제외하고는 엄청나게 훌륭했습니다.

내 두 명의 검토 자 중 한 사람은 다음과 같이 말했습니다. 분산의 48 % 만 설명 할 수 있고 필요한 것보다 적기 때문에 이러한 결과에 크게 의존 할 수 없습니다.

질문
어떤 거기에 필요한 유효 PCA에 의해 캡처해야합니다 얼마나 많은 편차의 값은? 사용중인 도메인 지식 및 방법론에 의존하지 않습니까? 설명 된 분산의 단순한 가치를 기반으로 전체 분석의 장점을 판단 할 수 있습니까?

노트

  • 데이터는 RT-qPCR (Real-Time Quantitative Polymerase Chain Reaction)이라는 분자 생물학에서 매우 민감한 방법론에 의해 측정 된 유전자의 11 가지 변수입니다.
  • R을 사용하여 분석을 수행 하였다.
  • 마이크로 어레이 분석, 화학 분석, 분광 분석 등의 분야에서 실제 문제에 대한 개인적인 경험을 바탕으로 한 데이터 분석가의 답변은 대단히 높이 평가됩니다.
  • 가능한 한 참고 문헌으로 답변을 지원하는 것을 고려하십시오.

랜덤 행렬 이론에서는 고유 값의 분포가 매우 중요합니다. Marcenko-Pastur 배포판은 종종 유사한 응용 프로그램에 사용됩니다.
John

녹색은 무엇이며 주황색 / 갈색은 무엇입니까? 축에만 있습니다.
usεr11852는 Reinstate Monic이

@ usεr11852, 업데이트 된 캡션을 참조하십시오.
박사 학위

답변:


8

당신의 특정한 질문에 관하여 :

PCA가 유효하기 위해 얼마나 많은 분산을 캡처해야하는지에 대한 필수 값이 있습니까?

아니요, (내가 아는 한) 없습니다. 사용할 수있는 단일 가치가 없다고 확신합니다. 캡처 된 분산 백분율의 마법 임계 값이 없습니다. Cangelosi and Goriely의 기사 : cDNA 마이크로 어레이 데이터에 적용한 주요 성분 분석에서 성분 유지 는 연구에서 성분의 수를 감지하기 위한 6 가지 표준 규칙에 대한 개요를 제공합니다 . (분모 그림, 총 분산의 비율 설명, 평균 고유 값 규칙, 로그 고유 값 다이어그램 등) 경험상 규칙에 크게 의존하지는 않습니다.

사용중인 도메인 지식 및 방법론에 의존하지 않습니까?

이상적으로 의존적 이어야 하지만 어떻게 말하고 의미하는지주의해야합니다.

예를 들어 : Acoustics에는 JND (Just Noticeable Difference)라는 개념이 있습니다. 음향 샘플을 분석 중이고 특정 PC의 물리적 스케일 변동이 해당 JND 임계 값보다 훨씬 낮다고 가정합니다. Acoustics 애플리케이션의 경우 해당 PC를 포함 해야 한다고 쉽게 주장 할 수 없습니다 . 들을 수없는 잡음을 분석 할 것입니다. 이 PC를 포함해야하는 몇 가지 이유가있을 수 있지만 이러한 이유는 다른 방법으로 제시 할 필요가 없습니다. RT-qPCR 분석에서 JND와 유사한 개념입니까?

마찬가지로 구성 요소가 9 차 Legendre 다항식처럼 보이고 표본이 단일 가우시안 범프로 구성되어 있다는 강력한 증거가있는 경우 다시 관련없는 변동을 모델링한다고 믿을만한 충분한 이유가 있습니다. 이러한 직교 변형 모드는 무엇입니까? 예를 들어 귀하의 경우에 세 번째 PC에서 "잘못된"것은 무엇입니까?

" 이 3 개의 클러스터가 문제의 문제와 매우 관련이있는 것으로 밝혀졌다 "는 사실은 실제로 강력한 논거가 아닙니다. 단순한 데이터 준설 ( 나쁜 일) 이 있을 수 있습니다 . 예를 들어 다른 기술이 있습니다. 매우 멋진 Isomaps로컬 선형 임베딩 은 왜 사용하지 않습니까? PCA를 구체적으로 선택한 이유는 무엇입니까?

다른 결과와 결과의 일관성이 특히 중요합니다. 더 깊이 파고 들어라. 결과가 다른 연구에서 얻은 PCA 결과와 일치하는지 확인하십시오.

설명 된 분산의 단순한 가치를 기반으로 전체 분석의 장점을 판단 할 수 있습니까?

일반적으로 그렇게해서는 안됩니다. 리뷰어가 나쁜 녀석이라고 생각하지 마십시오. 48 %는 합당한 근거를 제시하지 않고 보유 할 비율이 실제로 매우 적습니다.


답변 주셔서 감사합니다. JND와 마찬가지로 RT-qPCR에는 특별한 것이 없습니다. 실제로 RT-qPCR은 유전자 변수 자체를 측정하는 기술 일뿐입니다. 아마도 당신은 11 개 모두의 선형 조합으로 만들어진 새로운 변수 인 PC를 의미했을 것입니다. 그렇지 않으면 세 번째 PC에 아무런 문제가 없습니다.
박사 학위

데이터 준설 기술을 살펴보고 이에 대해 자세히 알아볼 것입니다. 그러나 이것이 R 패키지에 의해 구현되었는지 우연히 알고 있습니까?
박사 학위

1
@doctorate : 모든 아이디어는 데이터 준설을 피하는 것입니다. 죄송하지만 명시 적으로 테스트하는 패키지는 없습니다.
usεr11852는 Reinstate Monic

1
+1, 그러나 데이터 준설 ( "간단한 데이터 준설")에 대한 문장은 명확하지 않으며 아마도 @doctorate가 혼란 스러웠던 것입니다. 사실, 전체 단락이 명확하지 않다는 것을 알게되었습니다. Isomap과 LLE는 데이터 준설과 어떤 관련이 있습니까? 준설이 좋은가 나쁜가? 당신이 링크 한 wiki 기사는 그것을 smth good으로 설명하는 것으로 시작합니다. 아마도 그 단락에서 좀 더 명확하게 편집 할 수 있습니까?
amoeba는 Reinstate Monica
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.