백만 PCA 버전 시각화


31

주요 구성 요소 분석의 결과를 요약 테이블보다 더 많은 통찰력을 제공하는 방식으로 시각화 할 수 있습니까? ~ 1e4와 같이 관측 수가 많을 때 가능합니까? 그리고 R [다른 환경에서도 환영]에서 할 수 있습니까?


2
몇 가지 질문 : 구성 요소가 몇 개입니까? 샘플 크기 외에,이 PCA 출력의 표시가 처리 할 수있는 다른 연속 변수의 표시와 달라야하는 것이 있습니까? 당신은 다른 그룹의 점수를 대조하려고 노력하고 있습니까? 일반적으로 디스플레이로 달성하고자하는 것은 무엇입니까?
rolando2

답변:


53

행렬도는 PCA의 결과를 시각화하는 유용한 도구입니다. 주요 구성 요소 점수와 방향을 동시에 시각화 할 수 있습니다. 10,000 번의 관측 값을 사용하면 과도 플로팅에 문제가 생길 수 있습니다. 알파 블렌딩이 도움이 될 수 있습니다.

UCI ML 리포지토리와인 데이터에 대한 PC biplot은 다음과 같습니다 .

UCI ML 리포지토리의 와인 데이터 PC Biplot

점수는 각 관측치의 PC1 및 PC2 점수에 해당합니다. 화살표는 변수가 PC1 및 PC2와의 상관 관계를 나타냅니다. 흰색 원은 이론적으로 화살표의 최대 범위를 나타냅니다. 타원은 데이터에서 3 가지 와인 품종 각각에 대해 68 % 데이터 타원입니다.

이 플롯을 생성 하는 코드를 여기에서 사용할 수있게 만들었습니다 .


5
정말 다이너마이트 추가.
rolando2

이것은 내가 지금까지 본 것 중 가장 예쁘고 오래 전부터 +1입니다. 선택한 화살표 (로드)의 크기 조절에 관한 질문이 있습니다. 흰색 원의 반지름은 얼마입니까? (상관의 최대 값) 과 같지 않으므로 일부 스케일링이 수행되어야합니다. 임의적입니까 (원과 화살표를 멋지게 볼 수있을만큼 커야 함) 또는 스케일링 선택 뒤에 논리가 있습니까? 1
amoeba는 Reinstate Monica

p×2VVVT

V

4

Wachter 플롯은 PCA의 고유 값을 시각화하는 데 도움이됩니다. 이것은 본질적으로 Marchenko-Pastur 분포에 대한 고유 값의 QQ 플롯입니다. 여기에 예가 있습니다. 단일 우성 고유 값을 나타내는 Wachter 플롯Marchenko-Pastur 분포를 벗어나는 고유 한 고유 값이 하나 있습니다. 이러한 종류의 플롯의 유용성은 응용 프로그램에 따라 다릅니다.


7
여기에서 더 많은 것을 알면 도움이 될 것입니다 (아마도 추가 설명 및 / 또는 유용한 링크). Marchenko-Pastur 배포판은 무엇입니까? PCA와 어떤 관련이 있습니까? 보유 여부에 따라 결과에 어떤 의미가 있습니까? (등)
gung-복직 모니카

0

psych 패키지를 사용할 수도 있습니다.

여기에는 plot.factor 메소드가 포함되어 있습니다.이 메소드는 산점도 행렬 스타일로 서로 다른 구성 요소를 서로 구성합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.