다변량 가우스 데이터의 PCA 구성 요소가 통계적으로 독립적입니까?


16

데이터가 다변량 정규 분포 인 경우 PCA 구성 요소 (주요 구성 요소 분석)가 통계적으로 독립적입니까? 그렇다면 어떻게 이것을 증명 / 증명할 수 있습니까?

이 게시물을 보았으므로 질문에 답변합니다.

PCA는 명시 적 가우스 성 가정을하지 않습니다. 데이터에 설명 된 분산을 최대화하는 고유 벡터를 찾습니다. 주성분의 직교성은 가능한 가장 많은 데이터 변동을 설명하기 위해 가장 관련이없는 성분을 찾는 것을 의미합니다. 다변량 가우스 분포의 경우 성분 간 상관 관계가 0이면 독립성이 함축되어 대부분의 분포에 해당되지 않습니다.

답은 증거없이 제시되며, 데이터가 다변량 정상인 경우 PCA가 독립적 인 구성 요소를 생성 함을 의미합니다.

구체적으로, 우리의 데이터가 다음의 샘플이라고 가정하십시오.

xN(μ,Σ)

x의n 샘플을 샘플 X 의 행렬 행에 넣으 므로 Xn × m 입니다. X 의 SVD 계산 (중심 후) 수율xXXn×mX

X=USVT

의 열 U이 통계적으로 독립적이며 의 행도 독립적 이라고 말할 수 있습니까 VT? 이것은 일반적으로 xN(μ,Σ) 에만 해당됩니까, 아니면 전혀 그렇지 않습니까?


1
stats.stackexchange.com/q/110508/3277 도 비슷한 질문입니다.
ttnphns

1
나는 어떻게 PC가 어떻게 하나 이상의 차원에서 "통계적으로 독립적 인"것으로 간주 될 수 있는지 알 수 없다 결국, 정의에 따라 각각은 다른 모든 것과 직교합니다. 이 기능 의존성 은 매우 강력한 통계 의존성을 만듭니다.
whuber

1
@amoeba 나는 분명히 명확하고 명확하게 언급 된 질문에 충실하고 일관성있게 명확하기를 바랍니다. 데이터 가 무작위 이기 때문에 U의 모든 항목도 마찬가지 입니다. 나는 통계적 독립 정의를 그들에게 적용했다. 그게 다야. 귀하의 문제는 겉으로는 그것을 실현하지 않고 두 개의 매우 다른 의미로 단어 "상관"을 사용하고 있는지 것으로 보인다 :의 열 방법 덕분에 U가 구성되어, 그들은 기하학적으로 직교의 벡터 R , N ,하지만 그들은 더가 없습니다 독립적 인 랜덤 벡터를 의미합니다! XUURn
whuber

1
@amoeba 당신이 옳습니다. 시뮬레이션은 상관 관계가 0이 아닌 (강하게) 될 수 있음을 확실하게 보여줍니다. 그러나 "상호 관계"= "직교"라는 의미에서 "PCA 구성 요소가 서로 관련이 없다"고 논쟁하거나 특정 교과서가 잘못되었다고 말하지는 않습니다. 저의 우려는, 그러한 진술이 제대로 이해되면, 그것이 할 수있는 (그리고 행한) 모든 것이 현재 상황에서 광범위하게 혼란을 일으키는 질문과 관련이 없다는 것입니다.
whuber

1
@ whuber, 나는 당신이 내 대답의 또 다른 판을 기대하고 있다고 확신합니다! 여기있어. 나는 의존성에 대한 당신의 요점을 분명히 인정하고, 열 이 무의식적으로 독립적 이라는 것을 진술합니다 . 여기에서 "무증상"은 관측치 (행) 의 개수 n 을 나타냅니다 . 우리가 그것에 동의 할 수 있기를 바랍니다! 또한 n = 100 과 같은 합리적인 n에 대해 열 간의 종속성은 "실제로 관련이 없다"고 주장합니다. 이것은 더 논쟁적인 점이라고 생각하지만 내 대답에서 그것을 합리적으로 정확하게하려고합니다. Unnn=100
amoeba는

답변:


23

직관적 인 데모로 시작하겠습니다.

(a) 비 가우시안 2D 분포와 (b) 2D 가우시안 분포에서 관측치를 생성했습니다 . 두 경우 모두 데이터를 중심에두고 특이 값 분해 X = U S V ⊤를 수행했습니다 . 그런 다음 각 경우 에 대해 U 의 처음 두 열에 대한 산포도를 하나씩 만들었습니다 . 일반적으로 "주요 구성 요소"(PC)라고하는 U S 열입니다 . U의 열 은 단위 규범을 갖도록 확장 된 PC입니다. 여전히이 답변에서는 U 열에 중점을 둡니다 . 산점도는 다음과 같습니다.n=100X=USVUUSUU

가우스 및 비 가우시안 데이터의 PCA

"PCA 구성 요소가 서로 관련이 없음"또는 "PCA 구성 요소가 종속적 / 독립적"과 같은 진술은 일반적으로 하나의 특정 샘플 매트릭스 에 대해 이루어지며 행 전체 의 상관 관계 / 종속성 참조합니다 (예 : @ttnphns의 답변 참조 ). PCA는 변환 된 데이터 행렬 U를 생성합니다 . 여기서 행은 관측치이고 열은 PC 변수입니다. 즉 , U샘플 로 볼 수 있으며 PC 변수 사이의 샘플 상관 관계를 묻습니다. 이 샘플 상관 행렬은 물론 UU = I로 주어집니다.XUUUU=IPC 변수 간의 샘플 상관이 0임을 의미합니다. 이것은 사람들이 "PCA가 공분산 행렬을 대각선으로 만든다"고 말할 때의 의미입니다.

결론 1 : PCA 좌표에서 모든 데이터의 상관 관계는 없습니다.

위의 두 산점도 모두 마찬가지입니다. 그러나 왼쪽 (가우시안이 아닌) 산점도 에서 두 개의 PC 변수 y 는 독립적이지 않다는 것이 즉시 명백합니다 . 비록 상관 관계가 0이더라도, 그것들은 강하게 의존적이며 실제로는 y a ( x - b ) 2와 관련이 있습니다. 그리고 실제로는 상관 관계가 독립성을 의미하지 않는다는 것은 잘 알려져 있습니다.xyya(xb)2

반대로, 오른쪽 (가우시안) 산점도에 있는 두 개의 PC 변수 y 는 "거의 독립적"인 것으로 보입니다. 표준 알고리즘에 의해 그들 사이의 상호 정보를 계산하는 것은 (통계 의존성의 척도 : 독립 변수는 0의 상호 정보를 갖지 않습니다) 표준 알고리즘에 의해 0에 매우 가까운 값을 산출합니다. 유한 샘플 크기에 대해 정확히 0이 아니기 때문에 정확하게 0이 아닙니다 (미세 조정되지 않은 경우). 또한 두 샘플의 상호 정보를 계산하여 약간 다른 답변을 제공하는 다양한 방법이 있습니다. 그러나 우리는 모든 방법이 거의 0에 가까운 상호 정보의 추정치를 산출 할 것으로 기대할 수 있습니다.xy

결론 2 : PCA 좌표에서 가우시안 데이터는 "상당히 독립적"으로, 표준 의존성 추정치가 거의 0이됩니다.

그러나이 질문은 긴 일련의 주석에서 볼 수 있듯이 더 까다 롭습니다. 실제로 @whuber는 PCA 변수 y (열 UxyU ) 통계적으로 의존적 이어야 한다고 지적합니다. 열은 단위 길이 여야하고 직교 해야 하며 이는 의존성을 합니다 . 예를 들어 첫 번째 열의 일부 값이 이면 두 번째 열의 해당 값은 0 이어야합니다 .10

이것은 사실이지만 , 예를 들어 n = 3 과 같이 매우 작은 에만 실질적으로 관련이 있습니다 ( 중심 후 n = 2 인 경우 PC가 하나만 있음). 위의 그림에 표시된 n = 100 과 같은 합리적인 표본 크기 의 경우 종속성의 영향을 무시할 수 있습니다. U의 열은 가우스 데이터의 (확장 된) 투영이므로 가우시안이므로 하나의 값이 1에 가까워 질 수 없습니다.nn=3n=2n=100U1 (모든 다른 필요 에 가까운 것으로 요소 0 거의없는 어떤 가우스 분포).n10

결론 3 : 엄밀히 말하면, 유한 한 에 대해 PCA 좌표의 가우스 데이터는 종속적입니다. 그러나 이러한 의존성은 n 1 과 실질적으로 관련이 없다 .nn1

우리는 의 한계에서 일어나는 일을 고려함으로써 이것을 정확하게 만들 수 있습니다 . 무한 표본 크기의 한계에서 표본 공분산 행렬은 모집단 공분산 행렬 Σ와 같습니다 . 따라서 데이터 벡터 XXN ( 0 , Σ ) 에서 샘플링 된 경우 PC 변수는 Y = Λ - 1 / 2 V X / ( n - 1 ) (여기서 ΛVnΣXXN(0,Σ)Y=Λ1/2VX/(n1)ΛV 고유치 및 고유 벡터이다 및) YΣ 입니다. 즉 PC 변수는 대각선 공분산을 갖는 다변량 가우스에서옵니다. 그러나 대각선 공분산 행렬을 가진 다변량 가우시안은 일 변량 가우스 곱으로 분해되며, 이는통계적 독립성의 정의입니다.YN(0,I/(n1))

N(0,diag(σi2))=1(2π)k/2det(diag(σi2))1/2exp[xdiag(σi2)x/2]=1(2π)k/2(i=1kσi2)1/2exp[i=1kσi2xi2/2]=1(2π)1/2σiexp[σi2xi2/2]=N(0,σi2).

Conclusion 4: asymptotically (n) PC variables of Gaussian data are statistically independent as random variables, and sample mutual information will give the population value zero.

I should note that it is possible to understand this question differently (see comments by @whuber): to consider the whole matrix U a random variable (obtained from the random matrix X via a specific operation) and ask if any two specific elements Uij and Ukl from two different columns are statistically independent across different draws of X. We explored this question in this later thread.


Here are all four interim conclusions from above:

  • In PCA coordinates, any data have zero correlation.
  • In PCA coordinates, Gaussian data are "pretty much independent", meaning that standard estimates of dependency will be around zero.
  • Strictly speaking, for any finite n, Gaussian data in PCA coordinates are dependent; however, this dependency is practically irrelevant for any n1.
  • Asymptotically (n) PC variables of Gaussian data are statistically independent as random variables, and sample mutual information will give the population value zero.

You write "However, if the data are multivariate Gaussian, then they are indeed independent". 'They' being the principal components, and their coefficients? What do you mean by PCA diagonalizes the covariance matrix? Thank you for your response!
bill_e

"They" refers to principal components (which are projections of the data on the directions of maximal variance). PCA looks for directions of maximal variance; turns out that these directions are given by the eigenvectors of the covariance matrix. If you change the coordinates to the "PCA coordinates", then the covariance matrix will be diagonal, that is how eigendecomposition works. Equivalently, matrix S in the SVD from your question is a diagonal matrix. Also, matrix U is orthogonal, meaning that its covariance matrix is diagonal. All of that means that PCs have correlation zero.
amoeba says Reinstate Monica

Cool, thank you! The combination of your answer and this comment helps clear things up for me a lot. Can I edit your comment into your answer?
bill_e

의견을 통합하여 답변을 확장했습니다. 당신이 지금 그것에 만족하는지보십시오.
amoeba says Reinstate Monica

2
Interesting discussion! When I asked the question, my thought of statistical dependence was "if you know PC1, is it possible infer PC2?, etc." I will look more into independence tests based on mutual information now.
bill_e
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.