직관적 인 데모로 시작하겠습니다.
(a) 비 가우시안 2D 분포와 (b) 2D 가우시안 분포에서 관측치를 생성했습니다 . 두 경우 모두 데이터를 중심에두고 특이 값 분해 X = U S V ⊤를 수행했습니다 . 그런 다음 각 경우 에 대해 U 의 처음 두 열에 대한 산포도를 하나씩 만들었습니다 . 일반적으로 "주요 구성 요소"(PC)라고하는 U S 열입니다 . U의 열 은 단위 규범을 갖도록 확장 된 PC입니다. 여전히이 답변에서는 U 열에 중점을 둡니다 . 산점도는 다음과 같습니다.n=100X=USV⊤UUSUU
"PCA 구성 요소가 서로 관련이 없음"또는 "PCA 구성 요소가 종속적 / 독립적"과 같은 진술은 일반적으로 하나의 특정 샘플 매트릭스 에 대해 이루어지며 행 전체 의 상관 관계 / 종속성 을 참조합니다 (예 : @ttnphns의 답변 참조 ). PCA는 변환 된 데이터 행렬 U를 생성합니다 . 여기서 행은 관측치이고 열은 PC 변수입니다. 즉 , U 를 샘플 로 볼 수 있으며 PC 변수 사이의 샘플 상관 관계를 묻습니다. 이 샘플 상관 행렬은 물론 U ⊤ U = I로 주어집니다.XUUU⊤U=IPC 변수 간의 샘플 상관이 0임을 의미합니다. 이것은 사람들이 "PCA가 공분산 행렬을 대각선으로 만든다"고 말할 때의 의미입니다.
결론 1 : PCA 좌표에서 모든 데이터의 상관 관계는 없습니다.
위의 두 산점도 모두 마찬가지입니다. 그러나 왼쪽 (가우시안이 아닌) 산점도 에서 두 개의 PC 변수 와 y 는 독립적이지 않다는 것이 즉시 명백합니다 . 비록 상관 관계가 0이더라도, 그것들은 강하게 의존적이며 실제로는 y ≈ a ( x - b ) 2와 관련이 있습니다. 그리고 실제로는 상관 관계가 독립성을 의미하지 않는다는 것은 잘 알려져 있습니다.xyy≈a(x−b)2
반대로, 오른쪽 (가우시안) 산점도에 있는 두 개의 PC 변수 와 y 는 "거의 독립적"인 것으로 보입니다. 표준 알고리즘에 의해 그들 사이의 상호 정보를 계산하는 것은 (통계 의존성의 척도 : 독립 변수는 0의 상호 정보를 갖지 않습니다) 표준 알고리즘에 의해 0에 매우 가까운 값을 산출합니다. 유한 샘플 크기에 대해 정확히 0이 아니기 때문에 정확하게 0이 아닙니다 (미세 조정되지 않은 경우). 또한 두 샘플의 상호 정보를 계산하여 약간 다른 답변을 제공하는 다양한 방법이 있습니다. 그러나 우리는 모든 방법이 거의 0에 가까운 상호 정보의 추정치를 산출 할 것으로 기대할 수 있습니다.xy
결론 2 : PCA 좌표에서 가우시안 데이터는 "상당히 독립적"으로, 표준 의존성 추정치가 거의 0이됩니다.
그러나이 질문은 긴 일련의 주석에서 볼 수 있듯이 더 까다 롭습니다. 실제로 @whuber는 PCA 변수 와 y (열 UxyU ) 는 통계적으로 의존적 이어야 한다고 지적합니다. 열은 단위 길이 여야하고 직교 해야 하며 이는 의존성을 합니다 . 예를 들어 첫 번째 열의 일부 값이 이면 두 번째 열의 해당 값은 0 이어야합니다 .10
이것은 사실이지만 , 예를 들어 n = 3 과 같이 매우 작은 에만 실질적으로 관련이 있습니다 ( 중심 후 n = 2 인 경우 PC가 하나만 있음). 위의 그림에 표시된 n = 100 과 같은 합리적인 표본 크기 의 경우 종속성의 영향을 무시할 수 있습니다. U의 열은 가우스 데이터의 (확장 된) 투영이므로 가우시안이므로 하나의 값이 1에 가까워 질 수 없습니다.nn=3n=2n=100U1 (모든 다른 필요 에 가까운 것으로 요소 0 거의없는 어떤 가우스 분포).n−10
결론 3 : 엄밀히 말하면, 유한 한 에 대해 PCA 좌표의 가우스 데이터는 종속적입니다. 그러나 이러한 의존성은 n ≫ 1 과 실질적으로 관련이 없다 .nn≫1
우리는 의 한계에서 일어나는 일을 고려함으로써 이것을 정확하게 만들 수 있습니다 . 무한 표본 크기의 한계에서 표본 공분산 행렬은 모집단 공분산 행렬 Σ와 같습니다 . 따라서 데이터 벡터 X 가 → X ∼ N ( 0 , Σ ) 에서 샘플링 된 경우 PC 변수는 → Y = Λ - 1 / 2 V ⊤ → X / ( n - 1 ) (여기서 Λ 및 Vn→∞ΣXX⃗ ∼N(0,Σ)Y⃗ =Λ−1/2V⊤X⃗ /(n−1)ΛV 고유치 및 고유 벡터이다 및) → YΣ 입니다. 즉 PC 변수는 대각선 공분산을 갖는 다변량 가우스에서옵니다. 그러나 대각선 공분산 행렬을 가진 다변량 가우시안은 일 변량 가우스 곱으로 분해되며, 이는통계적 독립성의 정의입니다.Y⃗ ∼N(0,I/(n−1))
N(0,diag(σ2i))=1(2π)k/2det(diag(σ2i))1/2exp[−x⊤diag(σ2i)x/2]=1(2π)k/2(∏ki=1σ2i)1/2exp[−∑i=1kσ2ix2i/2]=∏1(2π)1/2σiexp[−σ2ix2i/2]=∏N(0,σ2i).
Conclusion 4: asymptotically (n→∞) PC variables of Gaussian data are statistically independent as random variables, and sample mutual information will give the population value zero.
I should note that it is possible to understand this question differently (see comments by @whuber): to consider the whole matrix U a random variable (obtained from the random matrix X via a specific operation) and ask if any two specific elements Uij and Ukl from two different columns are statistically independent across different draws of X. We explored this question in this later thread.
Here are all four interim conclusions from above:
- In PCA coordinates, any data have zero correlation.
- In PCA coordinates, Gaussian data are "pretty much independent", meaning that standard estimates of dependency will be around zero.
- Strictly speaking, for any finite n, Gaussian data in PCA coordinates are dependent; however, this dependency is practically irrelevant for any n≫1.
- Asymptotically (n→∞) PC variables of Gaussian data are statistically independent as random variables, and sample mutual information will give the population value zero.