중심화가 공분산을 줄입니까?


11

두 개의 비 독립적 랜덤 변수가 있고 너무 많은 "신호"를 잃지 않고 가능한 한 변수 간의 공분산을 줄이고 싶다고 가정하면 센터링이 도움이됩니까? 나는 중심화가 의미있는 요인으로 상관 관계를 줄인다는 것을 어딘가 읽었으므로 공분산에 대해서도 동일하게 수행해야한다고 생각합니다.

답변:


30

경우 및 랜덤 변수이다 와 상수이고, 그 다음 중심 은 특별한 경우 및 이므로 중심 은 공분산에 영향을 미치지 않습니다.XYab

Cov(X+a,Y+b)=E[(X+aE[X+a])(Y+bE[Y+b])]=E[(X+aE[X]E[a])(Y+bE[Y]E[b])]=E[(X+aE[X]a)(Y+bE[Y]b)]=E[(XE[X])(YE[Y])]=Cov(X,Y).
a=E[X]b=E[Y]


또한 상관은 우리가 볼 수있는 특히 상관 관계는 중심에 영향을받지 않습니다.

Corr(X,Y)=Cov(X,Y)Var(X)Var(Y),
Corr(X+a,Y+b)=Cov(X+a,Y+b)Var(X+a)Var(Y+b)=Cov(X,Y)Var(X)Var(Y),


그것은 이야기의 인구 버전이었습니다. 샘플 버전은 동일합니다. 사이의 공분산 추정치 및 페어링의 샘플 후,

Cov^(X,Y)=1ni=1n(Xi1nj=1nXj)(Yi1nj=1nYj)
XY(X1,Y1),,(Xn,Yn)
Cov^(X+a,Y+b)=1ni=1n(Xi+a1nj=1n(Xj+a))(Yi+b1nj=1n(Yj+b))=1ni=1n(Xi+a1nj=1nXjnna)(Yi+b1nj=1nYjnnb)=1ni=1n(Xi1nj=1nXj)(Yi1nj=1nYj)=Cov^(X,Y)
에 대한 모든 와 .ab


자세한 답변 주셔서 감사합니다. 표본 공분산의 경우 표본 크기에도 영향이 없음을 의미합니까? 즉, 표본 크기를 줄이면 표본 공분산이 감소하지 않습니까?
lvdp

3
@lvdp 아마도 별도의 질문이어야합니다.
누적

축소 된 샘플 크기는 다른 샘플에만 제공 될 수 있습니다. 따라서 다른 표본은 다른 공분산을 보여줄 수 있습니다. 그러나 표본 공분산은 평균으로 정의되므로 표본 크기는 원칙적으로 조정됩니다.
Nick Cox

5

엑스와이이자형[(엑스이자형[엑스])(와이이자형[와이])]엑스이자형[엑스]엑스엑스공분산을 취하면 중심화는 dem 등원 연산자입니다. 변수가 중심에 놓이면 중심 프로세스를 추가로 적용해도 변경되지 않습니다. 공식이 변수의 중심 버전을 취하지 않으면 온도와 섭씨 온도를 측정하는지에 따라 다른 변수 간의 공분산과 같은 모든 종류의 이상한 효과가 발생합니다.


3

"어딘가"는 다소 신뢰할 수없는 출처 인 경향이 있습니다 ...

공분산 / 상관은 명시 적 센터링으로 정의됩니다 . 데이터를 중심에 두지 않으면 공분산 / 상관을 계산하지 않은 것입니다. (정확하게 : Pearson 상관 관계)

주요 차이점은 이론적 모델 (예 : 예상 값이 정확히 0이어야 함)을 기반으로하는지 또는 데이터 (산술 평균)를 기반으로하는지 여부입니다. 산술 평균이 다른 중심보다 작은 공분산을 생성한다는 것을 쉽게 알 수 있습니다.

그러나 공분산이 작을수록 상관 관계가 작거나 반대되는 것은 아닙니다. 데이터 X = (1,2) 및 Y = (2,1)가 있다고 가정합니다. 산술 평균 중심화를 사용하면 완벽하게 음의 상관 관계를 얻을 수 있지만 생성 프로세스가 평균 0을 생성하면 데이터는 실제로 양의 상관 관계가 있음을 알 수 있습니다. 따라서이 예에서 우리는 중심에 있지만 이론적으로 예상되는 값은 0입니다.

이것은 쉽게 발생할 수 있습니다. 셀 번호가 -5에서 +5 인 센서 배열 11x11이 있다고 가정 해 봅시다. 산술 평균을 취하는 것보다는 센서 이벤트의 상관 관계를 찾을 때 여기에 센서 배열의 "물리적"평균을 사용하는 것이 합리적입니다 (셀 0 ~ 10을 열거하면 5를 고정 평균으로 사용합니다) 그리고 우리는 똑같은 결과를 얻을 것이므로 분석에서 색인 선택이 사라집니다.


감사합니다 @ Anony-Mousse, 표본 공분산이 표본 크기에 따라 달라 집니까? 즉, 표본 크기가 작을수록 공분산이 작아집니다 (중심 전).
lvdp

1
샘플에 따라 다릅니다. 평균적으로 나는 모른다. 표본이 작을수록 가변성이 더 클 것으로 예상되므로 더 극단적 인 값일 수 있습니다. 그러나 그것은 직관 일뿐입니다.
종료-익명-무스
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.