주성분 분석 대 대응 분석 사용


9

조간 커뮤니티에 관한 데이터 세트를 분석하고 있습니다. 데이터는 사분면 (해초, 따개비, 홍합 등)의 표지 비율입니다. 종 수의 관점에서 대응 분석 (CA) 과 선형 성분 (종이 아닌) 경향에 더 유용한 것으로서 성분 분석 (PCA) 에 대해 생각하는 데 익숙합니다 . PCA 또는 CA가 표지에 더 적합한 지 (어떤 논문도 찾을 수 없는지) 알아낼 수있는 행운이 없었으며, 100 %까지 제한되는 것이 어떻게 배포 될지 확신 할 수 없습니다. ?

첫 번째 detrended 대응 분석 (DCA) 축의 길이가 2보다 길면 CA를 사용해야한다고 가정 할 수 있다는 대략적인 지침을 잘 알고 있습니다. DCA 축 1의 길이는 2.17로, 도움이되지 않습니다.


3
PCA와 CA는 모두 관련이 있으며 SVD 알고리즘을 기반으로 할 수 있습니다. 근본적인 공식적인 차이 (@Gavin의 다른 답변에서는 언급되지 않음)는 PCA가 열 사이의 관계 만 분해하고 (예 : 공분산 행렬을 분해하여) 행을 "사례"로 취급한다는 것입니다. CA는 열과 행을 동시에 분해하여 교차 테이블 "범주"로 대칭 적으로 처리합니다. 따라서 CA가 남긴 biplot과 PCA 후에 플로팅 될 수있는 준 biplot (로드 + 점수)은 개념적으로 상당히 다른 정보를 제공합니다.
ttnphns 2014 년

답변:


9

PCA는 CA가 상대 값에서 작동하는 값에서 작동합니다. 둘 다 언급 한 종류의 상대 풍부 데이터에 적합합니다 (하나의 주요 경고 사항은 나중에 참조하십시오). % 데이터를 사용하면 이미 상대 측정 값이 있지만 여전히 차이가 있습니다. 자신에게 물어

  • 풍부한 종 / 택사 (예 : 큰 표지가있는 것)의 패턴을 강조하고 싶습니까?
  • 상대 구성의 패턴에 집중하고 싶습니까?

전자의 경우 PCA를 사용하십시오. 후자가 CA를 사용하는 경우. 두 가지 질문에서 내가 원하는 것은

A = {50, 20, 10}
B = { 5,  2,  1}

다른 것으로 간주하거나 동일하게? A그리고 B두 샘플이며, 숫자가 표시된 세 분류군의 % 커버한다. PCA는 사용 된 유클리드 거리 때문에 이들을 매우 다른 것으로 간주하지만 CA는이 두 샘플이 동일한 상대 프로파일을 가지기 때문에 매우 유사하다고 간주합니다.

여기서 중요한 경고는 데이터의 닫힌 구성 특성입니다. 1 (100 %)에 해당하는 소수의 그룹 (예 : Sand, Silt, Clay)이있는 경우 두 방법 모두 정확하지 않으며 Aitchison의 Log-ratio PCA를 통해보다 적절한 분석으로 이동할 수 있습니다. 데이터. (IIRC를 수행하려면 행 열 을 중심으로 하고 데이터를 로그 변환해야합니다.) 다른 방법도 있습니다. R을 사용하는 경우 유용한 한 권의 책은 R로 구성 데이터 분석 입니다.


언제나처럼, 정말 훌륭한 답변 Gavin. 감사합니다! 그것은 많은 것을 명확하게 해주 며, 그때 PCA를 사용할 것입니다. 조간대가 3 차원이기 때문에 유기체가 서로 자라는 경우 일부 비율은 실제로 100 %가되었습니다. 이것은 당신이 이야기하고있는 폐쇄적 인 구성 형식이 아닙니다.
HFBrowning

아니, 그가 말하는 것이 아닙니다. 폐쇄됨에 따라 그는 3 종 A, B, C를 사용하는 시스템을 의미한다고 생각합니다. % C = 100 %-% B-% A
Pertinax

그리고 DCA는 어떻습니까?
Darwin PC

DCA는 엉망인 CA 버전이므로 동일한 일반 원칙이 적용됩니다. DCA는 데이터에 대해 이상한 고문을하고 있으며 오늘날 도구 상자의 방법으로 데이터를 신경 쓸 필요는 없다고 생각하지만 다른 사람들의 의견은 그에 따라 다릅니다.
개빈 심슨
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.