그것은 이다 실제로 뭔가. 이를 확인하려면 상관 관계 자체에 대해 알고있는 것을 조사해야합니다.
벡터 값 랜덤 변수 X=(X1,X2,…,Xp) 상관 행렬은 표준화 된 버전의 의 분산 공분산 행렬 또는 간단히 "분산"입니다 X. 즉, 각 Xi 는 최근의 재조정 된 버전으로 대체됩니다.
Xi 및 의 공분산은 Xj중심 버전의 곱에 대한 기대치입니다. 즉, 쓰기 인 X′i=Xi−E[Xi] 및 X′j=Xj−E[Xj] , 우리가
Cov(Xi,Xj)=E[X′iX′j].
Var ( X )를 쓸 의 분산은 단일 숫자가 아닙니다. 이 값 배열 바르 ( X ) I , J = COV ( X I , X의 J ) .XVar(X)
Var(X)ij=Cov(Xi,Xj).
의도 된 일반화에 대한 공분산을 생각하는 방법은 텐서 로 간주하는 것 입니다. 즉 , 1 에서 p 사이의 i 와 j 에 의해 색인화 된 전체 수량 컬렉션 이며, X 가 선형 변환을 수행 할 때 값이 특히 간단하게 예측 가능한 방식으로 변경됩니다 . 구체적으로, Y = ( Y 1 , Y 2 , … , Y q )는 다음과 같이 정의 된 또 다른 벡터 값 랜덤 변수입니다.vijij1pXY=(Y1,Y2,…,Yq)
Yi=∑j=1pajiXj.
상수 (I및J가있는인덱스-j는파워 없음) 폼Q×(P)의배열을=(ajiijjq×p,j=1,…,p및i=1,…,q. 기대의 선형성A=(aji)j=1,…,pi=1,…,q
Var(Y)ij=∑akialjVar(X)kl.
행렬 표기법에서
Var(Y)=AVar(X)A′.
의 모든 성분은 실제로 Polarization Identity 로 인해 단 변량 분산입니다.Var(X)
4Cov(Xi,Xj)=Var(Xi+Xj)−Var(Xi−Xj).
이것은 일 변량 랜덤 변수의 분산을 이해하면 이미 이변 량 변수의 공분산을 이해한다는 것을 의미합니다.
문제의 표현은 완벽하게 유사합니다. 변수 는 ( 1 ) 과 같이 표준화되었습니다 . 우리는 그것이 무엇을 의미하는지 고려하여 무엇을 나타내는 지 이해할 수 있는 표준화 여부, 변수입니다. 우리는 각 X i 를 ( 2 ) 에서와 같이 중심 버전으로 대체 하고 3 개의 인덱스를 가진 수량을 형성 합니다.Xi(1)Xi(2)
μ3(X)ijk=E[X′iX′jX′k].
이들은 정도 3 의 중심 (다변량) 모멘트입니다 . 에서와 같이 텐서를 형성합니다 .Y = A X 이면(4)Y=AX
μ3(Y)ijk=∑l,m,naliamjankμ3(X)lmn.
이 삼중 합의 지수는 에서 p 사이 의 모든 정수 조합에 걸쳐 있습니다.1p
Polarization Identity의 아날로그는
24μ3(X)ijk=μ3(Xi+Xj+Xk)−μ3(Xi−Xj+Xk)−μ3(Xi+Xj−Xk)+μ3(Xi−Xj−Xk).
오른쪽에서 은 (일 변량) 중심 3 차 모멘트 : 중심 변수 큐브의 예상 값을 나타냅니다. 변수가 표준화되면이 모멘트를 일반적으로 왜도 라고합니다 . 따라서, 우리는 생각할 수 μ 3 ( X ) 것으로 다변량 비대칭 의 X . 이 값은 다양한 합의 차이와 X i의 차이의 선형 조합 인 순위 3 (즉, 3 개의 인덱스)의 텐서입니다 . 우리가 해석을 추구한다면, 다음, 우리는에 측정 이러한 구성 요소로 생각 Pμ3μ3(X)XXip왜도가 한 차원에서 측정하는지에 관계없이 많은 경우에,
첫 번째 순간 은 분포 의 위치 를 측정합니다 .
두 번째 모멘트 (분산-공분산 행렬)는 확산을 측정합니다 .
표준화 된 두 번째 모멘트 (상관 관계)는 차원 공간 에서 확산이 어떻게 변하는지를 나타냅니다 . 과p
확산에 대한 분포 의 모양 을 측정하기 위해 표준화 된 세 번째와 네 번째 모멘트가 사용됩니다 .
다차원 "모양"이 무엇을 의미하는지 자세히 설명하기 위해, PCA를 다변량 분포를 모든 방향에서 원점과 동일 산포에 위치한 표준 버전으로 줄이는 메커니즘으로 이해할 수 있음을 관찰했습니다. PCA가 수행 된 후, 은 분포의 다차원 형태의 가장 간단한 지표를 제공 할 것이다. 이러한 아이디어는 데이터가 경험적 분포 측면에서 항상 분석 될 수 있기 때문에 랜덤 변수와 마찬가지로 데이터에도 동일하게 적용됩니다.μ3
참고
Alan Stuart & J. Keith Ord, Kendall의 고급 통계 이론 5 판, 제 1 권 : 분포 이론 ; 3 장 순간과 누적 . 옥스포드 대학 출판부 (1987).
부록 : 편광 신원 증명
하자 대수 변수합니다. 있다 2 개 n 개의 추가하고 모든 뺄 수있는 방법 N 그들은. 우리는 이러한 금액 앤 차이가 각각 인상 할 때 N 번째 전원을, 우리는의 배수를 얻을 것이다, 그 결과 각각에 대한 적절한 기호를 선택하고, 그들을 추가 X 1x1,…,xn2nnnth .x1x2⋯xn
보다 공식적으로, 을 모든 n 튜플의 ± 1 세트로 설정하면 모든 요소 s ∈ S 는 벡터 s = ( s 1 , s 2 , … , s n )S={1,−1}nn±1s∈Ss=(s1,s2,…,sn) , 그 계수는 모두 입니다. 주장은±1
2nn!x1x2⋯xn=∑s∈Ss1s2⋯sn(s1x1+s2x2+⋯+snxn)n.(1)
실제로, 다항식 정리는 단항식 (여기서 i jxi11xi22⋯xinnijn
(ni1,i2,…,in)si11si22⋯sinn.
In the sum (1), the coefficients involving xi11 appear in pairs where one of each pair involves the case s1=1, with coefficient proportional to s1 times si11, equal to 1, and the other of each pair involves the case s1=−1, with coefficient proportional to −1 times (−1)i1, equal to (−1)i1+1. They cancel in the sum whenever i1+1 is odd. The same argument applies to i2,…,in. Consequently, the only monomials that occur with nonzero coefficients must have odd powers of all the xi. The only such monomial is x1x2⋯xn. It appears with coefficient (n1,1,…,1)=n! in all 2n terms of the sum. Consequently its coefficient is 2nn!, QED.
We need take only half of each pair associated with x1: that is, we can restrict the right hand side of (1) to the terms with s1=1 and halve the coefficient on the left hand side to 2n−1n! . That gives precisely the two versions of the Polarization Identity quoted in this answer for the cases n=2 and n=3: 22−12!=4 and 23−13!=24.
Of course the Polarization Identity for algebraic variables immediately implies it for random variables: let each xi be a random variable Xi. Take expectations of both sides. The result follows by linearity of expectation.