비 가우시안 데이터의 PCA


20

PCA에 대한 몇 가지 빠른 질문이 있습니다.

  • PCA 는 데이터 세트가 가우스 인 것으로 가정 합니까 ?
  • 본질적으로 비선형 데이터에 PCA를 적용하면 어떻게됩니까?

데이터 세트가 주어지면 프로세스는 먼저 평균 정규화, 분산을 1로 설정하고 SVD를 취하고 순위를 줄이고 마지막으로 데이터 세트를 새로운 감소 된 순위 공간에 매핑합니다. 새로운 공간에서 각 차원은 최대 분산의 "방향"에 해당합니다.

  • 그러나 새 공간에서 해당 데이터 집합의 상관 관계는 항상 0입니까, 아니면 기본적으로 가우시안 데이터에만 해당됩니까?

"A"와 "B"라는 두 개의 데이터 세트가 있다고 가정합니다. 여기서 "A"는 가우시안에서 가져온 무작위로 샘플링 된 점에 해당하고 "B"는 다른 분포에서 무작위로 샘플링 된 점 (예 : 포아송)에 해당합니다.

  • PCA (A)와 PCA (B)를 어떻게 비교합니까?
  • 새 공간의 점을 보면 PCA (A)가 가우시안에서 샘플링 된 점에 해당하고 PCA (B)가 포아송에서 샘플링 된 점에 해당하는지 어떻게 알 수 있습니까?
  • "A"0의 점들의 상관 관계는 무엇입니까?
  • "B"의 포인트 상관도 0입니까?
  • 더 중요한 것은 "올바른"질문입니까?
  • 상관 관계를 살펴 봐야합니까, 아니면 고려해야 할 다른 지표가 있습니까?

2
이 백서 의 PCA 가정에 대한 부록을 참조하십시오 .
정상적인

답변:


17

여기에 이미 좋은 답변이 있습니다 (@ Cam.Davidson.Pilon 및 @MichaelChernick 모두 +1). 이 문제에 대해 생각하는 데 도움이되는 몇 가지 사항을 알려 드리겠습니다.

먼저, PCA는 상관 매트릭스를 통해 작동합니다. 따라서 중요한 질문은 데이터에 대한 생각을 돕기 위해 상관 행렬을 사용하는 것이 합리적인지 여부입니다. 예를 들어, Pearson 곱-모멘트 상관 관계는 두 변수 사이 의 선형 관계를 평가합니다 . 변수가 관련되어 있지만 선형이 아닌 경우 상관 관계는 관계의 강도를 인덱싱하기위한 이상적인 지표가 아닙니다. ( 여기서는 상관 관계 및 비정규 데이터에 대한 CV에 대한 좋은 설명이 있습니다.)

둘째, PCA로 무슨 일이 일어나고 있는지 이해하는 가장 쉬운 방법은 단순히 축을 회전시키는 것입니다. 물론 더 많은 일을 할 수 있으며 불행히도 PCA는 요인 분석 과 혼동됩니다 (확실히 더 진행되고 있음). 그럼에도 불구하고 종과 휘파람이없는 평범한 오래된 PCA는 다음과 같이 생각할 수 있습니다.

  • 한 장의 그래프 용지에 2 차원으로 그려진 점이 있습니다.
  • 직교 축이 그려진 투명도와 원점의 핀홀이 있습니다.
  • 투명도의 원점 (즉, 핀홀)을 중심에두고 연필 구멍을 통해 연필의 끝을 끼워 고정시킵니다. (x¯,y¯)
  • 그런 다음 점 (원래의 축 대신 투명도의 축에 따라 색인화 될 때)이 상관되지 않을 때까지 투명도를 회전합니다.

이는 PCA에 대한 완벽한 은유가 아닙니다 (예 : 분산을 1로 조정하지 않았습니다). 그러나 사람들에게 기본 아이디어를 제공합니다. 요점은이 이미지를 사용하여 데이터가 가우시안이 아닌 경우 결과가 어떻게 보이는지 생각하는 것입니다. 이 프로세스가 가치가 있는지 여부를 결정하는 데 도움이됩니다. 희망이 도움이됩니다.


2
+1 (오래 전에). 나는 이것이이 스레드에서 가장 좋은 대답이라고 생각합니다. PCA를 투명하게 설명하는 방법이 마음에 듭니다.
amoeba는 Reinstate Monica

그건 그렇고,이 당신의 대답 은 우리의 거대한 평신도 PCA 스레드에서 최근의 대답 에 영감을주었습니다 . 나는 투명성을 유추하는 애니메이션 GIF를 만들었습니다.
amoeba는 Reinstate Monica

좋은 답변입니다. @amoeba. 이것보다 훨씬 낫다.
gung-복직 모니카

13

부분 해결책을 제시하고 귀하의 답변을 제시 할 수 있습니다 두 번째 단락세 번째 질문은 새로운 데이터의 상관 관계와 관련이 있습니다. 짧은 대답은 아니요, 새 공간의 데이터는 서로 관련이 없습니다. 확인하려면, 고려 및 이 개 독특한 원리 구성 요소로한다. 그러면 X w 1X w 2 는 데이터의 새로운 공간 X 의 2 차원입니다 .2w1w2Xw1Xw2X

상수이고, 두 번째 항 0입니다 (우리가 X 를 의미한다고 말했듯이). 첫 번째 항은 w T 1 E [ X T 로 다시 쓸 수 있습니다.

Cov(Xw1,Xw2)=E[(Xw1)T(Xw2)]E[Xw1]TE[Xw2]
wiX 으로 w 전체 용어 가정 제로 있도록 서로 직교이다 V를 R ( X는 ) 유한. 이것은 모두 정규성에 대한 가정과 무관했습니다.
w1TE[XTX]w2=Var(X)w1Tw2=0
wiVar(X)

XXwXXw

α


7

PCA에는 가정 된 선형성 또는 정규성이 없습니다. 아이디어는 설명 된 분산 량에 따라 p- 차원 데이터 세트의 변동을 직교 성분으로 분해하는 것입니다.


2
사실이지만 "직교 구성 요소로 p- 차원 데이터 세트의 변형을 분해하는 것은 " 직교 화가 일반적으로 수행 되었기 때문에 변수 사이에 비선형 의존성이있을 때 그다지 유용하지 않습니다. 또한 질문의 가우스 부분과 관련이 있습니다). PCA를 수행하고 일반적인 방식으로 결과를 해석 할 계획 인 경우, 데이터가보다 낮은 차원의 선형 부분 공간에 존재한다는 기본 가정이 있습니다.
매크로

2
@ 매크로 정확하지 않습니다. 나는 근본적인 가정이 적어도 대부분의 가변성과 따라서 데이터의 패턴이보다 낮은 차원의 공간에 집중되어 있다고 말한다. 직교 구성 요소가있는 2 차원 공간에서 포물선을 매우 잘 볼 수 있습니다. 비선형 모양은 2 차원 또는 3 차원으로 볼 수 있다고 생각합니다. 데이터가 다변량 가우시안 분포에서 나온 경우 일부 부분 공간에서 점은 타원 구름처럼 보입니다. 배포판은 높은 PC의 하위 공간에서 볼 수있는 타원처럼 보일 필요는 없습니다.
Michael R. Chernick

4
나는 이것을 약간 자격이있다. SVD에 의한 기존 PCA 또는 PCA에는 정규성 가정이 없습니다. 그러나 누락 된 데이터로 PCA를 계산하는 EM 알고리즘은 정규성과 선형성을 가정합니다.
John

PCA 로의 전통적인 길은 가정이 필요하지 않지만 솔루션으로 향하는 또 다른 길은 다음과 같습니다. 측정 잡음이 0 인 확률 적 PCA.
bayerj

3

7 페이지를 읽으십시오 :

http://www.cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf

그들은 PCA가 우리가 설명하는 것의 분포가 평균 (0의)과 분산만으로 설명 될 수 있다고 가정하고, 그것들은 정규 분포 일 뿐이라고 말합니다.

(기본적으로 Cam의 답변 외에도 의견을 말할만큼 충분한 평판이 없습니다.)


1
Shlens의 튜토리얼에 제공 한 링크는 튜토리얼의 버전 1에 대한 링크이지만 버전 3.02 (최종 버전?)를 사용할 수 있으며이 특정 사항이 제거되었습니다. 또한이 질문 은 그것에 대해 정확하게 물었습니다.
Oren Milman

0

내가 아는 한 PCA는 데이터의 정규성을 가정하지 않습니다. 그러나 정규 분포 (보다 일반적인 의미에서 대칭 분포)이면 결과가 더욱 강력 해집니다. 다른 사람들이 말하듯이, 핵심은 PCA가 Pearson 상관 계수 매트릭스를 기반으로한다는 것이며,이 추정값은 특이 치와 치우친 분포에 의해 영향을받습니다. 따라서 통계 테스트 또는 p- 값과 같은 일부 분석에서는 정규성이 충족되는지에 대해 더주의해야합니다. 탐색 적 분석과 같은 다른 응용 프로그램에서는이를 사용할 수 있지만 해석 할 때는주의해야합니다.


-1

데이터를 "정상적으로"배포해야한다고 다른 사람들과 동의했습니다. 모든 분포는 정규 분포와 겹치게됩니다. 분포가 정상이 아닌 경우 여기에 설명 된 것처럼 정규 결과에 비해 결과가 열등합니다 ...

  • 필요한 경우 배포를 변형 할 수 있습니다.
  • PCA를 선택하고 ICA (Independent Component Analysis)를 대신 사용할 수 있습니다.

첫 번째 답변에서 참조를 읽으면 부록 섹션에서 가정이 정규 분포라고 가정합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.