표본 공분산 행렬이 항상 대칭이고 양의 한정입니까?


33

표본의 공분산 행렬을 계산할 때 대칭적이고 양의 유한 행렬을 얻을 수 있습니까?

현재 내 문제에는 4600 개의 관측 벡터와 24 차원의 샘플이 있습니다.


공분산 행렬을 샘플링하기 위해 다음 공식을 사용합니다. 여기서 은 샘플 수이고 는 샘플 평균입니다. Qn=1ni=1n(xix¯)(xix¯)nx¯
Morten

4
이를 '샘플 공분산 행렬 계산'또는 '공분산 행렬 샘플링'보다는 '공분산 행렬 추정'이라고합니다.
Glen_b-복지국 Monica

1
공분산 행렬이 명확 하지 않은 일반적인 상황 은 24 "치수"가 100 %에 이르는 혼합물의 조성을 기록 할 때입니다.
whuber

답변:


41

벡터의 샘플 와, 샘플 평균 벡터이다 및 표본 공분산 행렬은 0이 아닌 벡터 경우 y ^ \ top Qy = y ^ \ top \ left (\ frac {1} {n} \ sum_ {i = 1} ^ n (x_i- \ bar {x}) (x_i- \ bar {x}) ^ \ top \ right) y = \ frac {1} {n} \ sum_ {i = 1} ^ ny ^ \ top (x_i- \ bar {x }) (x_i- \ bar {x}) ^ \ top y = \ frac {1} {n} \ sum_ {i = 1} ^ n \ left ((x_i- \ bar {x}) ^ \ top y \ 오른쪽) ^ 2 \ geq 0 \,. \ quad (*) 따라서 Q 는 항상 양의 반정도 입니다.xi=(xi1,,xik)나는=1,,Q = 1

엑스¯=1나는=1엑스나는,
=1나는=1(엑스나는엑스¯)(엑스나는엑스¯).
와이아르 자형케이
와이와이=와이(1나는=1(엑스나는엑스¯)(엑스나는엑스¯))와이
=1나는=1와이(엑스나는엑스¯)(엑스나는엑스¯)와이
=1나는=1((엑스나는엑스¯)와이)20.()

에 대한 추가 조건 긍정적하는 명확한 whuber의 코멘트 울부 짖는 소리에 주어졌다. 다음과 같이 진행됩니다.

정의 에 대한 . 용 제로가 아닌 , 제로의 경우에만 마다, . 세트 가정 스팬 . 그런 다음, 과 같은 실수 있습니다. 그러나 우리는 이므로 모순되는 됩니다. 따라서 의 범위 인 경우나는=(엑스나는엑스¯)나는=1,,yRk()ziy=0i=1,,n{z1,,zn}Rkα1,,αny=α1z1++αnzyy=α1z1y++αnzny=0y=0ziRkr a n k [ z 1z n ] = k긍정적 인 확실하다 . 이 조건은 .rank[z1zn]=케이


2
나는이 접근 방식이 마음에 들지만 약간의주의를 기울일 것입니다. 는 반드시 양의 명확한 것은 아닙니다. 그것이 필요한 (필요하고 충분한) 조건은 Konstantin의 답변에 대한 나의 의견에 설명되어 있습니다.
whuber

1
의 랭크 때문에 작거나 같은지 , 조건이 랭크에 단순화 될 수 k는 동일하다. k[z1,z2,,zn]k
제안은

13

올바른 공분산 행렬은 대칭과 긍정적 인 *의 항상 반은 명확한 *.

두 변수 간의 공분산은 됩니다.σ(x,y)=E[(xE(x))(yE(y))]

와 의 위치를 ​​바꾸더라도이 방정식은 바뀌지 않습니다 . 따라서 행렬은 대칭이어야합니다.yxy

또한 다음과 같은 이유로 양의 * *의 값 이어야합니다 .

공분산 행렬이 대각선이되는 방식으로 변수의 변형을 항상 찾을 수 있습니다. 대각선에서, 변환 된 변수의 분산이 0이거나 양인 것을 알 수 있습니다. 이로 인해 변환 된 행렬이 양의 반정의임을 알 수 있습니다. 그러나, 정의의 정의는 변형 불변이므로, 공분산 행렬은 임의의 선택된 좌표계에서 양의 반정의이다.

위에서 언급 한 공식을 사용 하여 공분산 행렬 을 추정 하면 (즉, 표본 공분산 을 계산할 때 ) 관측되지 않습니다. 여전히 대칭 적입니다. 또한 각 표본에 대해 각 표본 점에 동일한 확률을 제공 하는 pdf 가 공분산으로 표본 공분산을 갖기 때문에 (누군가 이것을 확인하십시오) 위의 모든 내용이 여전히 적용 되기 때문에 양의 반올림해야합니다 (제 생각에) .


1
추신 : 나는 이것이 당신의 질문이 아니라고 생각하기 시작하고 있습니다 ...
Konstantin Schubert

그러나 샘플링 알고리즘이이를 보장하는지 여부를 알고 싶다면 샘플링 방법을 명시해야합니다.
Konstantin Schubert

1
Morten, 대칭은 수식에서 즉시 나타납니다. 반 를 표시하려면 벡터 대해 해당 을 설정해야합니다 . 그러나 인 의 시간 합계 (여기서, , 어디서 의 합이다 = , 어느 벡터 의 제곱 길이입니다 . 왜냐하면 과 제곱합 적 제외 될 수 , QED . 이것은 또한 프로그램이 정확하게 그 벡터의u Q n 1 / n v i v i v i = x iˉ x ) n u Q n u u ( v i v i ) u ( u v i ) ( u v i ) u v i n > 0 uuQnu0uQn1/nvivivi=xix¯)nuQnuu(vivi)u(uvi)(uvi)uvin>0u Q n u = 0 u v i u v i = 0 i v i u = 0 Q nuQnu0uQnu=0u이것은 모든 직교한다 ( , 모든 대해 ). 때 범위는 다음 및 확정적이다. viuvi=0iviu=0Qn
whuber

1
@Morten 행렬 곱셈을 기하학적으로 이해하면 변환 불변이 분명합니다. 벡터를 화살표로 생각하십시오. 벡터를 나타내는 숫자는 좌표계에 따라 변하지 만 벡터의 방향과 길이는 변하지 않습니다. 이제 행렬을 곱하면 화살표의 길이와 방향을 변경할 수 있지만 각 좌표계에서 효과는 기하학적으로 동일합니다. 스칼라 곱도 마찬가지입니다. 그것은 기하학적으로 정의되어 있고 Geometriy는 변형 불변입니다. 따라서 모든 시스템에서 방정식의 결과가 동일합니다.
Konstantin Schubert

1
@Morten 좌표로 생각하면 인수는 다음과 같습니다. 가 변환 행렬 인 경우 를 를 변환 된 좌표 벡터로 사용하고 이므로 각 요소를 방정식 이면 을 얻습니다 . 이는 과 같습니다. A는 직교하므로 는 단위 행렬이며 다시 얻습니다 . 이는 변환 및 변환되지 않은 방정식이 결과와 동일한 스칼라를 가지므로 둘 다 또는 둘 다 0이 아닙니다. V ' = V V ' M ' = M T에서 V T M의 V > 0 V ' T M ' V ' = ( V ) T M T 경우 → V > 0 V T T M T A v > 0 A T A v T M vAv=AvvM=AMATvTMv>0vTMv=(Av)TAMATAv>0vTATAMATAv>0ATAvTMv>0
Konstantin Schubert

0

분산-공분산 행렬은 상기 행렬의 각 항을 계산하기 위해 실제 방정식으로부터 입증 될 수 있기 때문에 항상 대칭이다.

또한 분산-공분산 행렬은 항상 크기가 n 인 정사각 행렬입니다. 여기서 n은 실험의 변수 수입니다.

대칭 행렬의 고유 벡터는 항상 직교합니다.

PCA를 사용하면 실험에 사용 된 변수의 수를 줄일 수 있는지 확인하기 위해 행렬의 고유 값을 결정합니다.


1
Gen에 오신 것을 환영합니다. 사용자 이름, identicon 및 사용자 페이지에 대한 링크는 모든 게시물에 자동으로 추가되므로 게시물에 서명 할 필요가 없습니다.
앙투안 베르 넷

3
이 답변은 양의 명확성 문제를 해결함으로써 개선 될 수 있습니다.
Silverfish

이것은 실제로 질문에 대답하지 않습니다. 단지 관련성이 있거나 관련되지 않은 지원되지 않는 주장의 모음 일뿐입니다. 질문에 대한 답변과 추론을 설명 하는 방식으로 질문을 재구성 할 수 있습니까?
whuber

0

나는 왜 우리가 종종 공분산 행렬이 이면 양의 양의 한정이라고 말하는지를 설명하는 Zen의 멋진 주장에 덧붙일 것 입니다.n1k

경우 은 연속 확률 분포의 랜덤 표본이고 x 1 , x 2 , 입니다. . . , x를 N (확률 이론 관점에서) 거의 확실 선형 독립적이다. 이제, Z 1 , Z 2 , . . . , z n 은 선형 적으로 독립적이지 않습니다. n i = 1 z i =x1,x2,...,xnx1,x2,...,xnz1,z2,...,zn 이지만 x 1 , x 2 , 때문입니다 . . . , x n 은 선형 독립적 인 z 1 , z 2 , . . , Z N 스팬 등 R N - 1 . 만약 N - 1 K , 그들은 또한 스팬 R의 K .i=1nzi=0x1,x2,...,xnz1,z2,...,znRn1n1kRk

경우, 결론적으로 은 연속 확률 분포의 랜덤 표본이고 n - 1 k 이면 공분산 행렬은 양의 유한 한 값입니다.x1,x2,...,xnn1k


0

추상적 인 수학 공식을 빨리 잡지 못하는 저와 같은 수학적 배경을 가진 사람들에게 이것은 가장 많이 찬성 된 답변을위한 훌륭한 예입니다. 공분산 행렬은 다른 방식으로도 도출 될 수 있습니다.

여기에 이미지 설명을 입력하십시오

여기에 이미지 설명을 입력하십시오


이 스프레드 시트가 공분산 행렬의 양의 유한성을 어떻게 나타내는 지 설명 할 수 있습니까?
whuber

그렇지 않습니다. 공분산 행렬을 표기 형식으로 시각화하는 데 어려움을 겪었습니다. 그래서 나는이 시트를 직접 만들고 누군가를 도울 수 있다고 생각했습니다.
Parikshit Bhinde

그런 다음 질문에 대한 답변을 포함하도록 편집하십시오.
whuber

:) 제안 해 주셔서 감사합니다.
Parikshit Bhinde

문제는 "그런 다음 대칭적이고 양의 유한 행렬을 얻을 수 있는가?"입니다. (1) 공분산 행렬을 식별하지 않기 때문에이 문제를 해결하는 게시물의 어떤 요소도 인식 할 수 없습니다. (2) 그것은 어떤 것도 양의 명확성을 나타내지 않습니다.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.