3 개의 변수에 대한 피어슨 상관의 유추


17

나는 세 변수의 "상관"이 무엇인지에 관심이 있으며, 만약 그렇다면, 이것이 무엇일까요?

피어슨 곱 모멘트 상관 계수

E{(XμX)(YμY)}Var(X)Var(Y)

이제 3 가지 변수에 대한 질문 :

E{(XμX)(YμY)(ZμZ)}Var(X)Var(Y)Var(Z)

아무것도?

R에서는 해석 가능한 것으로 보입니다.

> a <- rnorm(100); b <- rnorm(100); c <- rnorm(100)
> mean((a-mean(a)) * (b-mean(b)) * (c-mean(c))) / (sd(a) * sd(b) * sd(c))
[1] -0.3476942

우리는 일반적으로 고정 된 세 번째 변수의 값이 주어지면 두 변수 사이의 상관 관계를 봅니다. 누군가가 명확히 할 수 있습니까?


2
1) 이변 량 Pearson 공식에서 "E"(코드에서 평균)가 n으로 나눈 다음 st로 나눈 것을 의미하는 경우 . 편차는 또한 n (n-1 아님)을 기준으로해야합니다 . 2) 세 변수를 모두 같은 변수로 둡니다. 이 경우에, 우리는 상관 관계가 1이 될 것으로 예상하지만 (이변 량의 경우와 같이)
아아아

3 변량 정규 분포의 경우 상관 관계에 관계없이 0입니다.
Ray Koopman

1
정말 제목 또는 유사한 '피어슨 3 개 변수의 상관 관계를 유추 "로 변경되는 혜택을 누릴 것이라고 생각 - 오히려 더 많은 정보 여기에 링크를 만들 것
좀 벌레

1
@Silverfish 동의합니다! 제목을 업데이트했습니다. 감사합니다.
PascalVKooten

답변:


11

그것은 이다 실제로 뭔가. 이를 확인하려면 상관 관계 자체에 대해 알고있는 것을 조사해야합니다.

  1. 벡터 값 랜덤 변수 X=(X1,X2,,Xp) 상관 행렬은 표준화 된 버전의 의 분산 공분산 행렬 또는 간단히 "분산"입니다 X. 즉, 각 Xi 는 최근의 재조정 된 버전으로 대체됩니다.

  2. Xi 의 공분산은 Xj중심 버전의 곱에 대한 기대치입니다. 즉, 쓰기 인 Xi=XiE[Xi]Xj=XjE[Xj] , 우리가

    Cov(Xi,Xj)=E[XiXj].
  3. Var ( X )를 의 분산은 단일 숫자가 아닙니다. 이 값 배열 바르 ( X ) I , J = COV ( X I , X의 J ) .XVar(X)

    Var(X)ij=Cov(Xi,Xj).
  4. 의도 된 일반화에 대한 공분산을 생각하는 방법은 텐서 로 간주하는 것 입니다. 즉 , 1 에서 p 사이의 ij 에 의해 색인화 된 전체 수량 컬렉션 이며, X 가 선형 변환을 수행 할 때 값이 특히 간단하게 예측 가능한 방식으로 변경됩니다 . 구체적으로, Y = ( Y 1 , Y 2 , , Y q )는 다음과 같이 정의 된 또 다른 벡터 값 랜덤 변수입니다.vijij1pXY=(Y1,Y2,,Yq)

    Yi=j=1paijXj.

    상수 (IJ가있는인덱스-j는파워 없음) 폼Q×(P)의배열=(aijijjq×p,j=1,,pi=1,,q. 기대의 선형성A=(aij)j=1,,pi=1,,q

    Var(Y)ij=aikajlVar(X)kl.

    행렬 표기법에서

    Var(Y)=AVar(X)A.
  5. 의 모든 성분은 실제로 Polarization Identity 로 인해 단 변량 분산입니다.Var(X)

    4Cov(Xi,Xj)=Var(Xi+Xj)Var(XiXj).

    이것은 일 변량 랜덤 변수의 분산을 이해하면 이미 이변 량 변수의 공분산을 이해한다는 것을 의미합니다.


문제의 표현은 완벽하게 유사합니다. 변수 ( 1 ) 과 같이 표준화되었습니다 . 우리는 그것이 무엇을 의미하는지 고려하여 무엇을 나타내는 지 이해할 수 있는 표준화 여부, 변수입니다. 우리는 각 X i( 2 ) 에서와 같이 중심 버전으로 대체 하고 3 개의 인덱스를 가진 수량을 형성 합니다.Xi(1)Xi(2)

μ3(X)ijk=E[XiXjXk].

이들은 정도 3중심 (다변량) 모멘트입니다 . 에서와 같이 텐서를 형성합니다 .Y = A X 이면(4)Y=AX

μ3(Y)ijk=l,m,nailajmaknμ3(X)lmn.

이 삼중 합의 지수는 에서 p 사이 의 모든 정수 조합에 걸쳐 있습니다.1p

Polarization Identity의 아날로그는

24μ3(X)ijk=μ3(Xi+Xj+Xk)μ3(XiXj+Xk)μ3(Xi+XjXk)+μ3(XiXjXk).

오른쪽에서 은 (일 변량) 중심 3 차 모멘트 : 중심 변수 큐브의 예상 값을 나타냅니다. 변수가 표준화되면이 모멘트를 일반적으로 왜도 라고합니다 . 따라서, 우리는 생각할 수 μ 3 ( X ) 것으로 다변량 비대칭X . 이 값은 다양한 합의 차이와 X i의 차이의 선형 조합 인 순위 3 (즉, 3 개의 인덱스)의 텐서입니다 . 우리가 해석을 추구한다면, 다음, 우리는에 측정 이러한 구성 요소로 생각 Pμ3μ3(X)XXip왜도가 한 차원에서 측정하는지에 관계없이 많은 경우에,

  • 첫 번째 순간 은 분포 의 위치 를 측정합니다 .

  • 두 번째 모멘트 (분산-공분산 행렬)는 확산을 측정합니다 .

  • 표준화 된 두 번째 모멘트 (상관 관계)는 차원 공간 에서 확산이 어떻게 변하는지를 나타냅니다 . 과p

  • 확산에 대한 분포 의 모양 을 측정하기 위해 표준화 된 세 번째와 네 번째 모멘트가 사용됩니다 .

다차원 "모양"이 무엇을 의미하는지 자세히 설명하기 위해, PCA를 다변량 분포를 모든 방향에서 원점과 동일 산포에 위치한 표준 버전으로 줄이는 메커니즘으로 이해할 수 있음을 관찰했습니다. PCA가 수행 된 후, 은 분포의 다차원 형태의 가장 간단한 지표를 제공 할 것이다. 이러한 아이디어는 데이터가 경험적 분포 측면에서 항상 분석 될 수 있기 때문에 랜덤 변수와 마찬가지로 데이터에도 동일하게 적용됩니다.μ3


참고

Alan Stuart & J. Keith Ord, Kendall의 고급 통계 이론 5 판, 제 1 권 : 분포 이론 ; 3 장 순간과 누적 . 옥스포드 대학 출판부 (1987).


부록 : 편광 신원 증명

하자 대수 변수합니다. 있다 2 개 n 개의 추가하고 모든 뺄 수있는 방법 N 그들은. 우리는 이러한 금액 앤 차이가 각각 인상 할 때 N 번째 전원을, 우리는의 배수를 얻을 것이다, 그 결과 각각에 대한 적절한 기호를 선택하고, 그들을 추가 X 1x1,,xn2nnnth .x1x2xn

보다 공식적으로, 을 모든 n 튜플의 ± 1 세트로 설정하면 모든 요소 s S 는 벡터 s = ( s 1 , s 2 , , s n )S={1,1}nn±1sSs=(s1,s2,,sn) , 그 계수는 모두 입니다. 주장은±1

(1)2nn!x1x2xn=sSs1s2sn(s1x1+s2x2++snxn)n.

실제로, 다항식 정리는 단항식 (여기서 i jx1i1x2i2xninijn

(ni1,i2,,in)s1i1s2i2snin.

In the sum (1), the coefficients involving x1i1 appear in pairs where one of each pair involves the case s1=1, with coefficient proportional to s1 times s1i1, equal to 1, and the other of each pair involves the case s1=1, with coefficient proportional to 1 times (1)i1, equal to (1)i1+1. They cancel in the sum whenever i1+1 is odd. The same argument applies to i2,,in. Consequently, the only monomials that occur with nonzero coefficients must have odd powers of all the xi. The only such monomial is x1x2xn. It appears with coefficient (n1,1,,1)=n! in all 2n terms of the sum. Consequently its coefficient is 2nn!, QED.

We need take only half of each pair associated with x1: that is, we can restrict the right hand side of (1) to the terms with s1=1 and halve the coefficient on the left hand side to 2n1n! . That gives precisely the two versions of the Polarization Identity quoted in this answer for the cases n=2 and n=3: 2212!=4 and 2313!=24.

Of course the Polarization Identity for algebraic variables immediately implies it for random variables: let each xi be a random variable Xi. Take expectations of both sides. The result follows by linearity of expectation.


Well done on explaining so far! Multivariate skewness kind of makes sense. Could you perhaps add an example that would show the importance of this multivariate skewness? Either as an issue in a statistical models, or perhaps more interesting, what real life case would be subject to multivariate skewness :)?
PascalVKooten

3

Hmmm. If we run...

a <- rnorm(100);
b <- rnorm(100);
c <- rnorm(100)
mean((a-mean(a))*(b-mean(b))*(c-mean(c)))/
  (sd(a) * sd(b) * sd(c))

it does seem to center on 0 (I haven't done a real simulation), but as @ttnphns alludes, running this (all variables the same)

a <- rnorm(100)
mean((a-mean(a))*(a-mean(a))*(a-mean(a)))/
  (sd(a) * sd(a) * sd(a))

also seems to center on 0, which certainly makes me wonder what use this could be.


2
The nonsense apparently comes from the fact that sd or variance is a function of squaring, as is covariance. But with 3 variables, cubing occurs in the numerator while denominator remains based on originally squared terms
ttnphns

2
Is that the root of it (pun intended)? Numerator and denominator have the same dimensions and units, which cancel, so that alone doesn't make the measure poorly formed.
Nick Cox

3
@Nick That's right. This is simply one of the multivariate central third moments. It is one component of a rank-three tensor giving the full set of third moments (which is closely related to the order-3 component of the multivariate cumulant generating function). In conjunction with the other components it could be of some use in describing asymmetries (higher-dimensional "skewness") in the distribution. It's not what anyone would call a "correlation," though: almost by definition, a correlation is a second-order property of the standardized variable.
whuber

1

If You need to calculate "correlation" between three or more variables, you could not use Pearson, as in this case it will be different for different order of variables have a look here. If you are interesting in linear dependency, or how well they are fitted by 3D line, you may use PCA, obtain explained variance for first PC, permute your data and find probability, that this value may be to to random reasons. I've discuss something similar here (see Technical details below).

Matlab code

% Simulate our experimental data
x=normrnd(0,1,100,1);
y=2*x.*normrnd(1,0.1,100,1);
z=(-3*x+1.5*y).*normrnd(1,2,100,1);
% perform pca
[loadings, scores,variance]=pca([x,y,z]);
% Observed Explained Variance for first principal component
OEV1=variance(1)/sum(variance)
% perform permutations
permOEV1=[];
for iPermutation=1:1000
    permX=datasample(x,numel(x),'replace',false);
    permY=datasample(y,numel(y),'replace',false);
    permZ=datasample(z,numel(z),'replace',false);
    [loadings, scores,variance]=pca([permX,permY,permZ]);
    permOEV1(end+1)=variance(1)/sum(variance);
end

% Calculate p-value
p_value=sum(permOEV1>=OEV1)/(numel(permOEV1)+1)
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.