일반적으로 PCA (Principal Component Analysis)에서는 데이터의 많은 변화를 설명하지 않기 때문에 처음 몇 대의 PC가 사용되고 저 분산 PC가 삭제됩니다.
그러나 저 변형 PC가 유용하고 (즉, 데이터의 맥락에서 사용하고, 직관적 인 설명 등이있는) 예를 버려서는 안되는 예가 있습니까?
일반적으로 PCA (Principal Component Analysis)에서는 데이터의 많은 변화를 설명하지 않기 때문에 처음 몇 대의 PC가 사용되고 저 분산 PC가 삭제됩니다.
그러나 저 변형 PC가 유용하고 (즉, 데이터의 맥락에서 사용하고, 직관적 인 설명 등이있는) 예를 버려서는 안되는 예가 있습니까?
답변:
Jolliffe (1982) 에서 발췌 한 멋진 발췌문은 다음과 같습니다 . " PCA의 저 분산 성분, 실제로 잡음이 있습니까? 테스트 할 방법이 있습니까? " 꽤 직관적입니다.
공항에서 중요한 문제인 클라우드 기반 의 높이를 예측해야한다고 가정합니다 . 다양한 기후 변수 표면 온도, 측정 T S 및 표면 이슬점, T에 D를 . 여기서, T d 는 수증기로 표면 공기가 포화되는 온도이고, 차이 T s - T d 는 표면 습도의 측정치이다. 이제 T s , T d 는 일반적으로 양의 상관 관계가 있으므로 기후 변수의 주성분 분석에는 T 와 높은 상관 관계가있는 고 분산 성분이 있습니다. 및 T s - T d 와 유사하게 상관되는 저 분산 성분. 그러나 H는 행 습도 따라서 관련된 T (S) - T (D) 에 대한 빈약 한 예측 줄 것이다 저 분산 성분을 거부 전략에 따라서, 즉, 낮은 분산보다 높은 분산 성분 H를 .
이 예에 대한 논의는 측정되어 분석에 포함되는 다른 기후 변수의 알려지지 않은 영향으로 인해 반드시 모호합니다. 그러나 그것은 종속 변수가 저 분산 성분과 관련되어 물리적으로 그럴듯한 경우를 보여 주며, 문헌에서 세 가지 실험적 예를 확인시켜 준다.
또한 클라우드 기반 예제는 1966-73 년 동안 카디프 (웨일즈) 공항의 데이터에 대해 테스트되었으며 기후 조건이 하나 인 해수면 온도도 추가되었습니다. 결과는 본질적으로 상기 예측 된 바와 같았다. 마지막 주성분은 약이었다 및 만 0 · 4 전체 변화의 퍼센트를 차지했다. 그러나 주성분 회귀 분석에서는 H 의 가장 중요한 예측 변수였습니다 . [공포도 추가]
두 번째 단락의 마지막 문장에서 언급 된 문헌의 세 가지 예는 내가 연결된 질문에 대한 대답 에서 언급 한 세 가지 예 입니다.
참고 문헌
Jolliffe, IT (1982). 회귀에 주성분을 사용하는 것에주의하십시오. 응용 통계, 31 (3), 300–303. http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf 에서 검색했습니다 .
R이 있으면 crabs
MASS 패키지 의 데이터에 좋은 예가 있습니다.
> library(MASS)
> data(crabs)
> head(crabs)
sp sex index FL RW CL CW BD
1 B M 1 8.1 6.7 16.1 19.0 7.0
2 B M 2 8.8 7.7 18.1 20.8 7.4
3 B M 3 9.2 7.8 19.0 22.4 7.7
4 B M 4 9.6 7.9 20.1 23.1 8.2
5 B M 5 9.8 8.0 20.3 23.0 8.2
6 B M 6 10.8 9.0 23.0 26.5 9.8
> crabs.n <- crabs[,4:8]
> pr1 <- prcomp(crabs.n, center=T, scale=T)
> cumsum(pr1$sdev^2)/sum(pr1$sdev^2)
[1] 0.9577670 0.9881040 0.9974306 0.9996577 1.0000000
분산의 98 % 이상이 처음 두 PC에서 "설명"되지만 실제로 이러한 측정을 수집하고 연구 한 경우 세 번째 PC는 게의 종과 밀접한 관련이 있기 때문에 매우 흥미 롭습니다. 그러나 PC1 (게의 크기에 해당하는 것으로 보임)과 PC2 (게의 성별에 해당하는 것으로 보임)에 늪이 있습니다.
내 경험에서 얻은 두 가지 예 (화학, 광학 / 진동 / 라만 분광법)는 다음과 같습니다.
최근에 광학 데이터 분석 데이터를 사용했는데, 원시 데이터의 총 분산의 99 % 이상이 배경 조명 (측정 지점에서 스포트라이트가 다소 강렬하고 형광등이 켜지거나 꺼졌으며 구름이 많거나 적음) 태양). 알려진 영향 요인 (원시 데이터에서 PCA에 의해 추출, 이러한 변화를 다루기 위해 추가로 측정 한 것)의 광학 스펙트럼을 사용한 백그라운드 보정 후, 우리가 관심을 갖는 효과는 PC 4 및 5에 나타났습니다.
PC 1 및 3 측정 된 샘플의 다른 영향으로 인해 PC 2는 측정 중 기기 팁 가열과 관련이 있습니다.
다른 측정에서, 측정 된 스펙트럼 범위에 대해 색 보정이없는 렌즈가 사용되었다. 색수차는 ca. 사전 처리 된 데이터의 총 분산의 90 % (대부분 PC 1에서 캡처).
이 데이터의 경우 정확히 무슨 일이 일어 났는지 깨닫는 데 오랜 시간이 걸렸지 만 더 나은 목표로 전환하면 나중에 실험 할 때 문제가 해결되었습니다.
(이 연구가 아직 게시되지 않았으므로 세부 정보를 표시 할 수 없습니다)
분산이 낮은 PC는 기본 데이터가 어떤 방식으로 클러스터링되거나 그룹화되는 공분산 매트릭스에서 PCA를 수행 할 때 가장 도움이된다는 것을 알았습니다. 그룹 중 하나가 다른 그룹보다 평균 분산이 실질적으로 낮 으면 가장 작은 PC가 해당 그룹에 의해 지배됩니다. 그러나 해당 그룹에서 결과를 버리고 싶지 않은 이유가있을 수 있습니다.
재무에서 주식 수익률은 연간 표준 편차의 약 15-25 %입니다. 채권 수익률의 변화는 역사적으로 표준 편차가 훨씬 낮습니다. 주식 수익률의 공분산 매트릭스와 채권 수익률의 변화에 대해 PCA를 수행하는 경우 상위 PC는 모두 주식의 변동을 반영하고 가장 작은 PC는 채권의 변동을 반영합니다. 채권을 설명하는 PC를 폐기하면 문제가 생길 수 있습니다. 예를 들어, 채권은 주식과는 매우 다른 분포 특성을 가질 수 있습니다 (얇은 꼬리, 시변 분산 특성, 평균 역전, 공적분 등). 상황에 따라 모델링하는 것이 매우 중요 할 수 있습니다.
상관 관계 매트릭스에서 PCA를 수행하면 상단 근처에 본드를 설명하는 더 많은 PC가 표시 될 수 있습니다.