가중 분산, 한 번 더


17

편향되지 않은 가중 분산은 이미 여기다른 곳에서 해결 되었지만 여전히 놀라운 양의 혼란이있는 것 같습니다. Wikipedia 기사 뿐만 아니라 첫 번째 링크에 제시된 공식에 대한 합의가있는 것으로 보인다 . 이것은 또한 R, Mathematica 및 GSL (MATLAB 제외)에서 사용하는 공식처럼 보입니다. 그러나 Wikipedia 기사에는 가중 분산 구현에 대한 훌륭한 위생 검사처럼 보이는 다음 줄도 포함되어 있습니다.

예를 들어, {2,2,4,5,5,5} 값이 동일한 분포에서 추출 된 경우이 세트를 비가 중 샘플로 취급하거나 가중 샘플 {2,4, 5}에 해당하는 가중치가 {2,1,3}이고 동일한 결과를 가져와야합니다.

내 계산은 원래 값의 분산에 대해 2.1667의 값을 제공하고 가중 분산에 대한 2.9545를 제공합니다. 나는 그들이 같은 것을 정말로 기대해야 하는가? 그 이유는 무엇?


6
이 질문은 실제로 구현에 관한 것이 아니라 그 뒤에 숨은 이론
혼란스러워

답변:


15

예, 두 예제 (무가 중 vs 가중)가 동일한 결과를 제공 할 것으로 기대해야합니다.

Wikipedia 기사에서 두 가지 알고리즘을 구현했습니다.

이것은 작동합니다 :

모든 xi 가 동일한 분포에서 도출되고 정수 가중치 wi 가 표본에서 발생 빈도를 나타내는 경우 가중 모집단 분산의 편견 추정기는 다음과 같이 제공됩니다.

s2 =1V11i=1Nwi(xiμ)2,

그러나이 (분수 가중치 사용)는 저에게 효과적이지 않습니다.

xi1/wi

s2 =V1V12V2i=1Nwi(xiμ)2

나는 여전히 두 번째 방정식이 의도 한대로 작동하지 않는 이유를 조사하고 있습니다.

/ 편집 : 두 번째 방정식이 생각대로 작동하지 않는 이유를 발견했습니다. 두 번째 방정식을 정규화 된 가중치 또는 분산 ( "신뢰성") 가중치가있는 경우에만 사용할 수 있으며 편향되지 않은 경우 두 번째 방정식을 사용할 수 있습니다 "반복"가중치를 사용하면 (관찰이 관찰 된 횟수를 계산하여 수학 연산에서 반복해야 함) 총 관측 수를 계산하는 기능이 상실되므로 보정 계수를 사용할 수 없습니다.

가중 및 비가 중 분산을 사용하여 결과의 ​​차이를 설명합니다. 계산이 편향됩니다.

따라서 편향 가중 분산을 원하면 "반복"가중치 만 사용하고 위에 게시 한 첫 번째 방정식을 사용하십시오. 그것이 가능하지 않으면, 당신은 그것을 도울 수 없습니다.

추가 정보가 필요하면 Wikipedia의 기사도 업데이트했습니다. http://en.wikipedia.org/wiki/Weighted_arithmetic_mean#Weighted_sample_variance

그리고 편향되지 않은 가중 공분산에 대한 관련 기사 (사실, Polarization Identity 로 인해 동일한 분산 ) : 가중 된 편향되지 않은 표본 공분산에 대한 올바른 방정식


이것을 통해 많은 것을 읽고 생각한 후에도 "신뢰성 가중치"라는 용어의 직관적 인 의미 나 예를 얻지 못합니다. 좀 더 자세히 설명해 주시겠습니까?
피터

@Peter 신뢰도 가중치는 정규화 된 가중치, 예를 들어 0과 1 또는 -1과 1 사이의 경계입니다. 빈도를 나타냅니다 (예 : 0.1은이 샘플이 다른 모든 샘플과 비교하여 10 %의 시간을 보였음을 의미합니다). 나는 그 용어를 발명하지 않았다. 그것은 간행물에서 찾을 수있다. 반복 가중치의 경우 반대입니다. 각 가중치는 발생 횟수, 카디널리티 (예 : 샘플이 10 회 관찰 된 경우 10)를 나타냅니다.
gaborous September

반복 가중치라고 부르는 것을 종종 빈도 가중치 라고하기 때문에 혼란 스럽지만 차이점이 있다고 생각합니다. 그것은 정규화에 달려 있습니다.
Peter

아니요, 빈도 가중치는 신뢰도 가중치의 대체 이름입니다. 반복 가중치의 경우 빈도가 아닌 발생 횟수입니다. 반복 가중치를 사용하면 정규화가 전혀 없습니다. 요점은 가중치를 정규화하는 한 기본 빈도를 잃기 때문에 계산을 완전히 편향시킬 수 없습니다. 유일한 방법은 총 발생 횟수를 유지하는 것입니다. 주파수 가중치를 실제로 사용하려면 총 N 개의 발생 횟수를 미리 저장하면 주파수 가중치에 N을 곱하여 반복 가중치로 앞뒤로 변환 할 수 있다고 생각합니다. 그렇습니다.
gaborous

그리고 만약 당신의 가중치가 1 / 분산 가중치라면, 이것을 어떻게 부르겠습니까? 그렇다면 "신뢰성 가중치"입니까?
Tom Wenseleers
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.