공분산 추정량의 분모가 왜 n-1이 아닌 n-2가 아니어야합니까?


36

(편향되지 않은) 분산 추정기의 분모는 이며, 관측치 가 개이고 하나의 모수 만 추정되기 때문입니다.Nn1n

V(X)=i=1n(XiX¯)2n1

같은 토큰으로 두 개의 모수를 추정 할 때 왜 공분산의 분모가 가되지 않아야하는지 궁금합니다 .n2

Cov(X,Y)=i=1n(XiX¯)(YiY¯)n1

15
그렇게하면 분산에 대해 상충되는 두 가지 정의가 있습니다. 하나는 첫 번째 공식이고 다른 하나는 적용된 두 번째 공식 입니다. Y=X
whuber

3
이변 량 / 다변량 평균 (예상)은 2 개의 매개 변수가 아닌 1입니다.
ttnphns 2015 년

14
@ttnphns 사실이 아닙니다. 이변 량 평균은 표현하기 위해 두 개의 실수가 필요하기 때문에 분명히 두 개의 매개 변수입니다. (실제로 단일 벡터 매개 변수이지만 두 구성 요소가 있다는 사실 만 위장합니다.) 이는 풀링 분산 t- 검정의 자유도에 명시 적으로 표시됩니다 (예 : 가 아닌 빼기) . 이 질문에서 흥미로운 것은 하나의 모수가 추정 되었기 때문에 에서 을 빼는 일반적인 "설명"이 모호하고, 엄격하지 않으며, 오도의 소지가 있음을 어떻게 드러내는 지 입니다. 211n
whuber

@ whuber, 당신이 맞습니다. 그것이 (독립적 인 관찰) 일 경우에만 중요 합니다. 단 변량 테스트보다 다변량 테스트에서 더 많은 df 를 소비하지 않을 것입니다. n
ttnphns 2016 년

3
@ whuber : 아마도 "매개 변수"로 간주되는 것이 상황에 달려 있음을 보여줍니다. 이 경우, 편차 계산 위에 관측n ttnphns 말했듯이 다변량 평균이 경우에도, 하나 개의 파라미터로 간주 될 수 - 또는 전체 평균 - 및 각각의 관측. 그러나, 예를 들어 시험에서 치수의 선형 조합을 고려하는 다른 경우에는 각 관측치의 각 치수가 "매개 변수"가됩니다. 이 문제는 까다로운 문제입니다.
amoeba는

답변:


31

공분산 분산입니다.

편광 정체성 때문에

Cov(X,Y)=Var(X+Y2)Var(XY2),

분모는 같아야합니다.


20

특별한 경우는 직관을 제공해야합니다. 다음에 대해 생각하십시오.

Cov^(X,X)=V^(X)

후자는 . 혈관 교정.i=1n(XiX¯)2n1

합성법 하여 에 상기 전 대해 준다 그렇다면 빈칸을 가장 잘 채울 수있는 방법은 무엇입니까?YXCov^(X,Y)i=1n(XiX¯)(XiX¯)mystery denominator


1
승인. 그러나 OP는 "cov (X, X) 및 cov (X, Y)를 한 줄의 논리로 간주하는 이유를 물을 수 있습니다. 왜 cov ()에서 Y를 X로 바꾸는가? 다른 상황입니까? " 당신은 그 답을 피하지 않았지만, 대답은 (높은
공감)

7

빠르고 더러운 답변 ... 먼저 살펴 보자. ; 당신이 있다면 관찰 알려져 기대 가치와 사용하면 사용하는 것이 분산을 추정 할 수 있습니다.var(X)n E(X)=01ni=1nXi2

기대 값을 알 수없는 경우 대해 을 취하여 관측 값을 알려진 예상 값을 가진 관측 값으로 변환 할 수 있습니다 . 분모에 을 갖는 공식을 얻게됩니다. 그러나 는 독립적이지 않으므로 이것을 고려해야합니다. 마지막에 일반적인 공식을 찾을 수 있습니다.nn1Ai=XiX1i=2,,nn1Ai

공분산에 대해 동일한 아이디어를 사용할 수 있습니다. 의 예상 값 이 이면 수식에 이 있습니다. 다른 모든 관측 값에서 을 빼면 알려진 예상 값 이있는 관측치가 계산 되고 수식에 이 다시 나타납니다. 계정.(X,Y)(0,0)1n(X1,Y1)n11n1

추신 : 그렇게하는 명확한 방법은 의 정규 직교 기저를 선택하는 것입니다. 즉, 벡터 같은(1,,1)n1c1,,cn1Rn

  • jcij2=1 모든 ,i
  • jcij=0 모든 ,i
  • jci1jci2j=0 모든 .i1i2

그런 다음 변수 및 를 정의 할 수 있습니다 . 독립적이며, 예상 한 값 , 원래의 변수와 같은 분산 / 공분산을 갖는다.n1Ai=jcijXjBi=jcijYj(Ai,Bi)(0,0)

요점은 알려지지 않은 기대를 없애고 싶다면 하나의 관측 값 만 버린다는 것입니다. 이것은 두 경우 모두 동일하게 작동합니다.


6

분모가 p- 변량 샘플 공분산 추정기가 공분산 행렬의 편향 추정량 이라는 증거가 있습니다 .1n1

x=(x1,...,xp) .

Σ=E((xμ)(xμ))

S=1n(xix¯)(xix¯)

표시하려면 :E(S)=n1nΣ

증명 :S=1nxixix¯x¯

다음:

(1)E(xixi)=Σ+μμ

(2)E(x¯x¯)=1nΣ+μμ

따라서E(S)=Σ+μμ(1nΣ+μμ)=n1nΣ

따라서 최종 분모가 인 는 편향되지 않습니다. 비 대각선 요소는 개별 표본 공분산입니다.Su=nn1S1n1Su

추가 사항 :

  1. n 추첨은 독립적입니다. (2)에서 표본 평균의 공분산을 계산하는 데 사용됩니다.

  2. 단계 (1) 및 (2)는Cov(x)=E[xx]μμ

  3. 2 단계는Cov(x¯)=1nΣ


2 단계의 어려움! :)
Elvis

@Elvis 지저분합니다. Cov (X + Y, Z) = Cov (X, Z) + Cov (Y, Z) 규칙을 적용하고 다른 드로우가 독립적임을 인식해야합니다. 그 다음은 기본적으로 공분산 n 번을 합산 1 / n²하여 축소하는 것
statchrist

4

'n-2'가 아닌 'n-1'을 사용하여 직관을 구축하는 한 가지 방법은 공분산을 계산하기 위해 X와 Y를 모두 의미를 제거 할 필요는 없지만 두 가지 중 하나를 의미하지는 않습니다.


어떤 분모를 사용해야하는지에 대한 질문에 대해 자세히 설명해 주시겠습니까? 증거의 대수 관계는 평균 합에 대한 잔차가 0에 가까워 지지만 어떤 분모가 관련이 있는지에 대해서는 침묵한다는 사실에서 비롯됩니다.
whuber

5
나는 OP와 같은 질문을했기 때문에 여기에 왔습니다. 나는이 답변이 @whuber가 위에서 지적한 지점의 뉘앙스에 있다고 생각한다. 경험에 따르면 df ~ = n-(매개 변수 추정)은 "모호하고, 엄격하지 않으며, 오해의 소지가있을 수있다"는 것이다. 이것은 두 매개 변수 (xbar 및 ybar)를 추정 해야하는 것처럼 보이지만 실제로는 하나 (xbar 또는 ybar) 만 추정한다는 사실을 지적합니다. df는 두 경우 모두 동일해야하므로 둘 중 더 낮아야합니다. 나는 이것이 그 의도라고 생각합니다.
mpettis

1

1) 시작하십시오 .df=2n

2) 표본 공분산은 합니다. 두 잃는다 ; 하나는 에서 하나는 에서 하나 는 입니다.Σi=1n(XiX¯)(YiY¯)dfX¯Y¯df=2(n1)

3) 그러나 에는 각 제품에서 하나씩 개별 용어 만 포함 됩니다. 두 숫자를 곱하면 각 개별 숫자의 독립 정보가 사라집니다.Σi=1n(XiX¯)(YiY¯)n

예를 들어,

24=124=212=38=46=64=83=122=241 ,

와 같이 비이성적 및 분수는 포함하지 않으므로 두 숫자 계열을 곱하고 곱을 조사 할 때 우리는 원래의 정보의 절반을 잃어 버렸기 때문에 하나의 숫자 계열에서, 즉 두 숫자가 한 쌍으로 하나의 숫자로 그룹화되기 전에 (즉, 곱셈) 수행 된 것입니다.24=2626df=n1

다시 말해, 일반성을 잃지 않고 우리는 쓸 수 있습니다

(XiX¯)(YiY¯)=ziz¯일부 및 경우ziz¯

즉, 및 입니다. 에서 을 분명히 갖는 공분산 공식은zi=XiYiX¯YiXiY¯z¯=X¯Y¯zdf=n1

Σi=1nziz¯n1=

Σi=1n[(XiX¯)(YiY¯)]n1=

1n1Σi=1n(XiX¯)(YiY¯) .

따라서 질문에 대한 답은 가 그룹화되어 절반으로 는 것입니다.df


@ whuber 어떻게 같은 것을 두 번 게시하고 한 번 삭제 했습니까? 무엇을 제공합니까? 우리는 그들 중 하나를 제거 할 수 있습니까? 나중에 참조 할 수 있도록 그러한 복제본을 영구적으로 삭제하는 방법이 있습니까? 나는 몇 가지 매달려 있고 성가신입니다.
Carl

내가 알 수있는 한, 당신은 당신의 대답을 복제본에서 여기로 다시 게시했습니다. (다른 사람은 귀하의 이름으로 답변을 게시 할 권한이 없습니다.) 시스템은 여러 스레드에서 동일한 답변을 게시하지 않는 것이 좋습니다. 이것은 모든 주석과 답변을 소스 스레드에서 대상 스레드로 이동하는 절차입니다. 그런 다음 대상 스레드에서 중복 게시물을 삭제했습니다. 영구적으로 삭제 된 상태로 유지되지만 평판이 좋은 사람뿐만 아니라 귀하에게도 표시됩니다.
whuber

@ whuber 나는 병합에서 일어나는 일, 병합이 발생했는지 또는 많은 규칙이 무엇인지 끊임없이 알았지 만 몰랐습니다. stats.stackexchange.com/questions/251700/…을 제거하는 것을 고려 Hold하시겠습니까?
Carl
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.