2D 대응 분석 그림 해석


19

인터넷을 광범위하고 광범위하게 검색하고 있습니다. 아직 2D 대응 분석 플롯을 해석하는 방법에 대한 훌륭한 개요를 아직 찾지 못했습니다. 점 사이의 거리를 해석하는 데 조언을 줄 수 있습니까?

아마도 예가 도움이 될 것입니다. 여기서 통신 분석에 대해 논의한 많은 웹 사이트에서 발견 된 도표가 있습니다. 빨간색 삼각형은 눈 색깔을 나타내고 검은 색 점은 머리 색깔을 나타냅니다.

대체 텍스트

위의 그래프를 보면 이러한 데이터에서 볼 수있는 내용에 대해 몇 가지 진술을 할 수 있습니다. 삼각형과 점의 다른 차원과 관계에 대한 관심이 있습니까?

행점 대 열점에 대한 설명과이 예제에 특히 초점을 둔 "프로파일"이라는 단어를 사용하면 도움이됩니다.


1
아래 @ CHL의 훌륭한 계정뿐만 아니라, 또한 생각 "행렬도 분석"의 단지 형태 간단 CA와 PCA를 고려 하나.
ttnphns 2016 년

답변:


24

첫째, 서신 분석의 경우 소위 biplots 를 구성하는 다른 방법이 있습니다 . 모든 경우에 기본 아이디어는 행 셀과 열 셀 사이의 "거리"에 대한 최상의 2D 근사를 표시하는 방법을 찾는 것입니다. 다시 말해, 우연성 테이블의 행과 열 사이의 관계에 대한 계층 구조 (또한 "조정"이라고도 함)를 찾습니다.

χ2

corresp()MASSRtC=NN

i=1,,Ij=1,,Jfj|i=nij/nifi|j=nij/njIfiJfjχ2ii

dχ22(i,i)=j=1Jnnj(nijninijni)2

또한 와의 링크를 볼 수도 있습니다.χ2H0ni×nj/n(i,j)

행 프로파일에서 PCA를 인식하면 (개인으로 간주) 유클리드 거리를 대체χ2거리가 나면 CA를 얻습니다. 첫 번째 주축은 모든 점에 가장 가까운 선이며 해당 고유 값은이 치수로 설명되는 관성입니다. 열 프로필에서 동일한 작업을 수행 할 수 있습니다. 두 접근법 사이에 대칭이 있으며,보다 구체적으로 열 프로파일에 대한 주성분 (PC)이 행 프로파일에 대한 PC와 동일한 고유 값과 연관되어 있음을 알 수 있습니다. Biplot에 표시되는 것은이 새로운 좌표 시스템에서 개인의 좌표이지만 개인은 별도의 계승 공간으로 표시됩니다. 각 개인 / 양식이 요인 공간에 잘 표현되어 있다면 ( 볼 수 있습니다.cos2ijχ2chisq.test(tab)$expected-chisq.test(tab)$observed

χ2nϕ2

사실,에서 사용할 수있는 기능에 비해 강화 된 CA를 제공 할 수있는 몇 가지 패키지가 있습니다 MASS: 패키지 ade4 , FactoMineR , anacorCA는 .

최신은 특정 그림에 사용 된 것 중 하나이며 Journal of Statistical Software에 실린 논문은 대부분의 기능 : 2 차원 및 3 차원 그래픽이있는 R의 대응 분석 : ca 패키지를 설명 합니다.

따라서 눈 / 머리 색에 대한 예는 여러 가지 방법으로 재현 할 수 있습니다.

data(HairEyeColor)
tab <- apply(HairEyeColor, c(1, 2), sum) # aggregate on gender
tab

library(MASS)
plot(corresp(tab, nf=2))
corresp(tab, nf=2)

library(ca)
plot(ca(tab))
summary(ca(tab, nd=2))

library(FactoMineR)
CA(tab)
CA(tab, graph=FALSE)$eig  # == summary(ca(tab))$scree[,"values"]
CA(tab, graph=FALSE)$row$contrib

library(ade4)
scatter(dudi.coa(tab, scannf=FALSE, nf=2))

모든 경우에 결과 biplot에서 읽은 것은 기본적으로 (대부분의 관성을 설명하는 첫 번째 축으로 해석을 제한합니다).

  • 첫 번째 축은 밝은 머리카락과 검은 머리카락 사이, 그리고 파란 눈과 갈색 눈 사이의 명확한 반대를 강조합니다.
  • 금발 머리를 가진 사람들은 파란 눈을 가진 경향이 있고 검은 머리를 가진 사람들은 갈색 눈을 가진 경향이 있습니다.

프랑스 리옹 의 생물 정보학 연구소 에 대한 데이터 분석에 대한 추가 자료가 많이 있습니다 . 이것은 주로 프랑스어로되어 있지만, 그렇게 큰 문제는 없을 것입니다. 다음 두 유인물은 첫 시작으로 재미 있어야합니다.

k


1
@Brandon 첫 번째 축은 두 방식 모두에 대해 "우세"(밝음-> 어두운) 축이지만 첫 번째 축은 파란색과 녹색 눈이 갈색과 개암 눈에 반대 함을 알 수 있습니다 (좌표는 반대 부호 임). 흔하지 않은 적발 / 녹색 눈 조합은 대부분 2 차 축에 기여합니다. 이 축은 전체 관성의 9.5 % 만 설명하므로 확고한 결론을 도출하기가 다소 어렵습니다 (유전자 가설).
chl

1
@Brandon PBIL 코스 ( j.mp/cHZT7X )와 Michael Friendly의 리소스 ( j.mp/cYHyVn + vcdvcdExtraR 패키지, 후자는 멋진 비 ign 트 포함 )라는 두 가지 추가 참조가 있습니다.
chl

2
@Brandon 네, 하나의 양식 = 변수에 대한 하나의 범주. 두 번째 질문의 cor경우 축과의 제곱 상관 관계이며 ctr기여도입니다 (%로 읽으려면 10으로 나누어야 함). 따라서 "적발"은 두 번째 축의 관성에 55.1 % 기여합니다. 어떤 의미에서는 FactoMineR 출력이 더 "직관적"이라는 것을 알았습니다 ( CA(tab, graph=FALSE)$row$contrib%를 직접 제공합니다).
chl

1
@chl : 와우, CCA 나 "French way"에 대해 아는 사람이 있다면이 책을 읽어보세요! 많은 감사합니다. 나는 또한 관심을 가질만한 인터넷 검색으로 이것을 발견했다 : www-stat.stanford.edu/~susan/papers/dfc.pdf
ars

1
@ars (+1) 링크에 감사드립니다 (이 논문에 대해 몰랐지만 흥미로워 보입니다). 최근 개발에 대한 나의 최선의 권장 사항은 실제로 Jan de Leeuw의 모든 논문과 Greenacre의 다중 대응 일치 분석 및 관련 방법기하 적 데이터 분석 : Le Roux & Rouanet의 대응 일치 분석에서 구조적 데이터 분석 (프랑스 방식) .
chl
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.