분산이 적은 PC가“유용한”PCA의 예


24

일반적으로 PCA (Principal Component Analysis)에서는 데이터의 많은 변화를 설명하지 않기 때문에 처음 몇 대의 PC가 사용되고 저 분산 PC가 삭제됩니다.

그러나 저 변형 PC가 유용하고 (즉, 데이터의 맥락에서 사용하고, 직관적 인 설명 등이있는) 예를 버려서는 안되는 예가 있습니까?


5
꽤 많은 수. PCA, 구성 요소의 무작위성을 참조하십시오 . 복제본 일 수도 있지만 제목이 훨씬 명확하기 때문에 (검색을 통해 쉽게 찾을 수 있으므로) 닫혀 있어도 삭제하지 마십시오.
Nick Stauner 2018 년

답변:


18

Jolliffe (1982) 에서 발췌 한 멋진 발췌문은 다음과 같습니다 . " PCA의 저 분산 성분, 실제로 잡음이 있습니까? 테스트 할 방법이 있습니까? " 꽤 직관적입니다.

공항에서 중요한 문제인 클라우드 기반 의 높이를 예측해야한다고 가정합니다 . 다양한 기후 변수 표면 온도, 측정 T S 및 표면 이슬점, T에 D를 . 여기서, T d 는 수증기로 표면 공기가 포화되는 온도이고, 차이 T s - T d 는 표면 습도의 측정치이다. 이제 T s , T d 는 일반적으로 양의 상관 관계가 있으므로 기후 변수의 주성분 분석에는 T 와 높은 상관 관계가있는 고 분산 성분이 있습니다.HTsTdTdTsTdTs,Td T s - T d 와 유사하게 상관되는 저 분산 성분. 그러나 H는 행 습도 따라서 관련된 T (S) - T (D) 에 대한 빈약 한 예측 줄 것이다 저 분산 성분을 거부 전략에 따라서, 즉, 낮은 분산보다 높은 분산 성분 H를 .Ts+TdTsTdHTsTdH
이 예에 대한 논의는 측정되어 분석에 포함되는 다른 기후 변수의 알려지지 않은 영향으로 인해 반드시 모호합니다. 그러나 그것은 종속 변수가 저 분산 성분과 관련되어 물리적으로 그럴듯한 경우를 보여 주며, 문헌에서 세 가지 실험적 예를 확인시켜 준다.
또한 클라우드 기반 예제는 1966-73 년 동안 카디프 (웨일즈) 공항의 데이터에 대해 테스트되었으며 기후 조건이 하나 인 해수면 온도도 추가되었습니다. 결과는 본질적으로 상기 예측 된 바와 같았다. 마지막 주성분은 약이었다 만 0 · 4 전체 변화의 퍼센트를 차지했다. 그러나 주성분 회귀 분석에서는 H 의 가장 중요한 예측 변수였습니다 . [공포도 추가]TsTdH

두 번째 단락의 마지막 문장에서 언급 된 문헌의 세 가지 예는 내가 연결된 질문에 대한 대답 에서 언급 한 세 가지 예 입니다.


참고 문헌
Jolliffe, IT (1982). 회귀에 주성분을 사용하는 것에주의하십시오. 응용 통계, 31 (3), 300–303. http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf 에서 검색했습니다 .


V(A+B)=V(A)+V(B)+2Cov(A,B)V(AB)=V(A)+V(B)2Cov(A,B)TsTd

+1, 이것은 좋은 예입니다. 흥미롭게도, 그것은 또한 억제의 예입니다.
gung-복직 모니카

17

R이 있으면 crabsMASS 패키지 의 데이터에 좋은 예가 있습니다.

> library(MASS)
> data(crabs)
> head(crabs)

  sp sex index   FL  RW   CL   CW  BD
1  B   M     1  8.1 6.7 16.1 19.0 7.0
2  B   M     2  8.8 7.7 18.1 20.8 7.4
3  B   M     3  9.2 7.8 19.0 22.4 7.7
4  B   M     4  9.6 7.9 20.1 23.1 8.2
5  B   M     5  9.8 8.0 20.3 23.0 8.2
6  B   M     6 10.8 9.0 23.0 26.5 9.8

> crabs.n <- crabs[,4:8]
> pr1 <- prcomp(crabs.n, center=T, scale=T)
> cumsum(pr1$sdev^2)/sum(pr1$sdev^2)
[1] 0.9577670 0.9881040 0.9974306 0.9996577 1.0000000

분산의 98 % 이상이 처음 두 PC에서 "설명"되지만 실제로 이러한 측정을 수집하고 연구 한 경우 세 번째 PC는 게의 종과 밀접한 관련이 있기 때문에 매우 흥미 롭습니다. 그러나 PC1 (게의 크기에 해당하는 것으로 보임)과 PC2 (게의 성별에 해당하는 것으로 보임)에 늪이 있습니다.

여기에 이미지 설명을 입력하십시오

여기에 이미지 설명을 입력하십시오


2
+1, 이것은 정말 깔끔한 데모입니다. 원하는 경우 추가 할 수있는 2 개의 산점도 행렬을 만들었습니다.
gung-복직 모니카

1
@ gung : 산점도를 추가해 주셔서 감사합니다! 나는이 대답을 전에 찬성했지만 줄거리를 보지 않고는 완전히 이해하지 못했습니다. Scatterplot PC2 vs PC3는 성별과 종을 거의 완벽하게 분리하는 것이 정말 좋습니다. 모든 변수가 강한 양의 상관 관계가있을 때 발생하는 상황 (예 : PC1은 많은 차이를 설명하고 기본적으로 평균 임)을 보여주기 때문에이 예제를 좋아합니다.
amoeba는

1
감사합니다, @amoeba. 나는 그들이 밝혀진 방식을 정말 좋아합니다. 나는 그들에게 색을 입히는 데 많은 시간을 보냈다 (색, pch, lables, 전설). 실제로는 꽤 예쁘다고 생각합니다. PC1에 대해 좋은 지적을합니다. 또한 많은 관계에서 일정한 변동 계수와 성 및 / 또는 종의 상호 작용이 있음을 알 수 있습니다. 그들은 자라고 (나이?) 그들은 더 뚜렷해진다. 등 볼만한 깔끔한 것들이 많이 있습니다. 계속 볼 수 있습니다.
gung-복직 모니카

8

내 경험에서 얻은 두 가지 예 (화학, 광학 / 진동 / 라만 분광법)는 다음과 같습니다.

  • 최근에 광학 데이터 분석 데이터를 사용했는데, 원시 데이터의 총 분산의 99 % 이상이 배경 조명 (측정 지점에서 스포트라이트가 다소 강렬하고 형광등이 켜지거나 꺼졌으며 구름이 많거나 적음) 태양). 알려진 영향 요인 (원시 데이터에서 PCA에 의해 추출, 이러한 변화를 다루기 위해 추가로 측정 한 것)의 광학 스펙트럼을 사용한 백그라운드 보정 후, 우리가 관심을 갖는 효과는 PC 4 및 5에 나타났습니다.
    PC 1 및 3 측정 된 샘플의 다른 영향으로 인해 PC 2는 측정 중 기기 팁 가열과 관련이 있습니다.

  • 다른 측정에서, 측정 된 스펙트럼 범위에 대해 색 보정이없는 렌즈가 사용되었다. 색수차는 ca. 사전 처리 된 데이터의 총 분산의 90 % (대부분 PC 1에서 캡처).
    이 데이터의 경우 정확히 무슨 일이 일어 났는지 깨닫는 데 오랜 시간이 걸렸지 만 더 나은 목표로 전환하면 나중에 실험 할 때 문제가 해결되었습니다.

(이 연구가 아직 게시되지 않았으므로 세부 정보를 표시 할 수 없습니다)


3

분산이 낮은 PC는 기본 데이터가 어떤 방식으로 클러스터링되거나 그룹화되는 공분산 매트릭스에서 PCA를 수행 할 때 가장 도움이된다는 것을 알았습니다. 그룹 중 하나가 다른 그룹보다 평균 분산이 실질적으로 낮 으면 가장 작은 PC가 해당 그룹에 의해 지배됩니다. 그러나 해당 그룹에서 결과를 버리고 싶지 않은 이유가있을 수 있습니다.

재무에서 주식 수익률은 연간 표준 편차의 약 15-25 %입니다. 채권 수익률의 변화는 역사적으로 표준 편차가 훨씬 낮습니다. 주식 수익률의 공분산 매트릭스와 채권 수익률의 변화에 ​​대해 PCA를 수행하는 경우 상위 PC는 모두 주식의 변동을 반영하고 가장 작은 PC는 채권의 변동을 반영합니다. 채권을 설명하는 PC를 폐기하면 문제가 생길 수 있습니다. 예를 들어, 채권은 주식과는 매우 다른 분포 특성을 가질 수 있습니다 (얇은 꼬리, 시변 분산 특성, 평균 역전, 공적분 등). 상황에 따라 모델링하는 것이 매우 중요 할 수 있습니다.

상관 관계 매트릭스에서 PCA를 수행하면 상단 근처에 본드를 설명하는 더 많은 PC가 표시 될 수 있습니다.


주식, 채권, 수익률 및 수익이 무엇인지 모르는 경우이 답변을 이해하기가 매우 어렵습니다. 나는, 그리고 당신의 첫 번째 문장이 두 번째 문장과 어떤 관련이 있는지 알 수 없습니다 ...
amoeba는 Reinstate Monica가

1
일부 수정했습니다.
John

1

에서 이 이야기 ( 슬라이드 ) 발표자는 높은 변동성과 낮은 변동성 기능 사이의 차별에 PCA의 사용에 대해 설명합니다.

저변 이성 차원의 중요한 변화는 변칙적 행동의 강력한 지표이기 때문에 실제로 변칙 탐지에 저변이 기능을 선호합니다. 그들이 제공하는 동기 부여 예는 다음과 같습니다.

사용자가 항상 Mac에서 로그인한다고 가정합니다. 활동의 "운영 체제"차원은 분산이 매우 낮습니다. 그러나 "운영 체제"가 Windows 인 동일한 사용자의 로그인 이벤트를 본다면 매우 흥미로울 것입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.