가중 분산의 바이어스 보정


22

가중 분산 용 는 평균 동일한 데이터로부터 추정 될 때, 상기 바이어스 샘플 분산을 수정이 존재한다 :

바르(엑스): =1나는(엑스나는μ)2
바르(엑스): =11나는(엑스나는이자형[엑스])2

가중 평균과 분산을 조사하고 가중 분산에 대한 적절한 바이어스 보정이 무엇인지 궁금합니다. 사용 :

평균(엑스): =1나는ω나는나는ω나는엑스나는

내가 사용하는 "순수한"수정되지 않은 분산은 다음과 같습니다.

Var(X):=1iωiiωi(ximean(X))2

바이어스를 수정하는 올바른 방법인지 궁금합니다.

A)

Var(X):=1iωi1iωi(ximean(X))2

또는 B)

Var(X):=nn11iωiiωi(ximean(X))2

또는 C)

Var(X):=iωi(iωi)2iωi2iωi(ximean(X))2

A) 무게가 작을 때 나에게 이해가되지 않습니다. 정규화 값은 0이거나 음수 일 수 있습니다. 그러나 B 는 어떻습니까? ( 은 관측치의 수입니다)-이것이 올바른 접근법입니까? 이것을 보여주는 참고 자료가 있습니까? "평균 및 분산 추정치 업데이트 : 개선 된 방법", DHD West, 1979 년에 이것을 사용합니다. : 세 번째, C)이 질문에 대한 대답의 나의 해석이다 /mathpro/22203/unbiased-estimate-of-the-variance-of-an-unnormalised-weighted-meann

C)의 경우 분모가 와 매우 비슷하다는 것을 알았습니다 . 여기에 일반적인 연결이 있습니까? 나는 그것이 완전히 일치하지는 않는다고 생각한다. 그리고 분명히 우리가 분산을 계산하려고하는 연결이 있습니다 ...바르(Ω)

세 사람 모두 all 을 설정 한 상태 점검을 "생존"하는 것 같습니다 . 어떤 구내에서 어떤 것을 사용해야합니까? ``업데이트 : ''whuber는 및 나머지 모두 사용 하여 상태 점검을 수행 할 것을 제안했습니다 . 이것은 A와 B를 배제하는 것으로 보입니다.ω 1 = ω 2 = .5 ω i = ϵω나는=1ω1=ω2=.5ω나는=ϵ


두 개의 가장 큰 가중치가 같고 나머지는 거의 작아지는 경우를 고려할 때 (A)와 (B)가 경합에서 떨어집니다 ( 대해 알려진 결과에 동의하지 않기 때문에 ). (C)는 근사치 인 것으로 보인다; 올바른 요소가 가중치의 훨씬 더 복잡한 기능이라고 생각합니다. =2
whuber

@whuber 아래의 ThePawn은 그것이 C라는 것을 제안합니다. 더 자세한 우려가 있습니까?
Anony-Mousse

1
솔루션 (A)가 작동하고 과거에 구현했으며 경험적 테스트에서 올바른 결과를 제공함을 확인할 수 있습니다. 그러나 가중치와 0보다 큰 정수 값만 사용해야합니다.
gaborous

감사! 이것은 가중치가 기하 급수적으로 움직일 때 올바른 궤도에 오르는 데 많은 도움이되었습니다! 분산을 계산하는 순진한 방법은 간단한 이동 평균 계산과 유사하게 나타나는 작은 (1-1 / n) 보정 외에도 상수 2로 실제로 과대 평가하는 것으로 나타났습니다. 그것은 특히 미친 특별한 경우입니다!
saolof

답변:


10

나는 수학을 겪고 변형 C로 끝났습니다.

¯ V ωi

V에이아르 자형(엑스)=(나는ω나는)2(나는ω나는)2나는ω나는2V¯
여기서 는 수정되지 않은 분산 추정치입니다. 모든 가 동일한 경우 수식은 가중치가없는 경우에 동의 합니다. 아래에 증거를 자세히 설명합니다.V¯ω나는

설정 , 우리가λ나는=ω나는나는ω나는

V¯=나는λ나는(엑스나는jλj엑스j)2

내부 용어를 확장하면

(엑스나는jλj엑스j)2=엑스나는2+j,케이λjλ케이엑스j엑스케이2jλj엑스나는엑스j

기대 값을 취하면 각 항에 존재하는 라는 가됩니다. 도망:이자형[엑스나는엑스j]=V에이아르 자형(엑스)1나는=j+이자형[엑스]2이자형[엑스]

이자형[V¯]=V에이아르 자형(엑스)나는λ나는(1+jλj22λ나는)
즉 변형 C를 얻기 위해서는 와 관련하여 의 표현을 연결 해야합니다 .
이자형[V¯]=V에이아르 자형(엑스)(1jλj2)
λ나는ω나는

위의 변형 C입니까?
Anony-Mousse

웁스, 네, 변형 C입니다.
ThePawn

나는 경험적으로이 솔루션을 확인하고이 NOT 작업 ... 수행 나는 또한 나 자신에 의해 과거에 구현 한 것으로 솔루션 (A)는 유일한 하나를 수행하지만, 그것은 단지 무게가 숫자 정수와> = 0와 함께 작동
gaborous

2
이 방정식은 Wikipedia, Matlab, R 및이 방정식을 구현하는 다른 사람들에 따르면 잘못되었습니다. 여기서 분자는 제곱이지만 OP가 제안한 (C)와 같아서는 안됩니다. en.wikipedia.org/wiki/…
개그 너비

1
@rajatkhanduja 나는 증거가 아니라 최종 파생 방정식 (이 답변의 최상위 방정식)에 대해 이야기하고있었습니다. 그러나 실제로 맞습니다. 분자는 우리가 V를 곱하기 때문에 제곱입니다. 따라서 분자는 제곱되지 않습니다. 어쨌든,이 추정기는 "신뢰성"유형 가중치에 의존하기 때문에 아래 답변에서 설명하는 것처럼 편향되어 있습니다.
gaborous

7

A와 C는 모두 정확하지만 사용할 무게는 사용하는 무게에 따라 다릅니다.

  • A는 "반복"유형 가중치 (각 관측치의 발생 횟수를 계산하는 정수) 를 사용해야 하며, 편향되지 않습니다 .
  • C는 "신뢰성"유형 가중치 (정규화 된 가중치 또는 각 관측치에 대한 분산) 를 사용해야 하며 바이어스 됩니다. 편향 될 수 없습니다.

C가 반드시 바이어스되는 이유는 "반복"유형 가중치를 사용하지 않으면 총 관측치 수 (샘플 크기)를 계산할 수 없기 때문에 보정 계수를 사용할 수 없기 때문입니다.

자세한 내용은 최근에 업데이트 된 Wikipedia 기사를 확인하십시오. http://en.wikipedia.org/wiki/Weighted_arithmetic_mean#Weighted_sample_variance

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.