정규 분포의 모수 추정 : 평균이 아닌 중앙값?


15

정규 분포의 모수를 추정하는 일반적인 방법은 평균 및 표본 표준 편차 / 분산을 사용하는 것입니다.

그러나 일부 특이 치가있는 경우 중앙값과 중앙값의 중앙값 편차가 훨씬 강력해야합니다.

내가 시도한 일부 데이터 세트에서 의해 추정 된 정규 분포 는 많은 양을 생성하는 것으로 보입니다 평균 및 RMS 편차를 사용 하는 기존의 보다 적합합니다 .N(median(x),median|xmedian(x)|)N(μ^,σ^)

데이터 세트에 특이 치가 있다고 가정하면 중앙값을 사용 하지 않는 이유가 있습니까? 이 접근법에 대한 참조가 있습니까? Google에서 빠른 검색을 수행해도 여기서 중간 값을 사용할 때의 이점에 대해 유용한 유용한 결과를 찾지 못했습니다 (그러나 "정규 분포 매개 변수 추정 중앙값"은 매우 구체적인 검색어 집합이 아닙니다).

중앙 편차, 편향되어 있습니까? 바이어스를 줄이기 위해 과 곱해야합니까 ?n1n

감마 분포 또는 지수 적으로 수정 된 가우스 분포 (모수 추정의 왜곡이 필요하고 특이 치가 실제로이 값을 엉망으로 만드는)와 같은 다른 분포에 대한 유사한 강력한 모수 추정 방법을 알고 있습니까?


2
특이 치가있는 경우 분포가 실제로 가우스 정규 분포가 아닐 수 있습니다. 이것은 물론 귀하의 질문에 대답하지는 않지만 IMO는 항상 즐겁게 할 수있는 가능성입니다.
sds

2
나는 단순하고 깨끗하며 수학적인 분포가 없습니다. 나는 본질적으로 지저분한 실제 데이터를 가지고 있습니다. 더 이상 상황을 분석적으로 처리 할 수 ​​없으므로 어떤 배포도 완벽하게 적합하지 않습니다. 그리고 특이 치는 실제로 내 관심사입니다. :-)
Erich Schubert

답변:


15

오염 된 가우시안 분포에서 가져온 데이터와 관련된 예에서 대신 를 사용하여 대량의 데이터를 설명하는 모수를 더 잘 추정 할 수 있습니다.여기서 는 다음과 같습니다.메드 | x med ( x ) | 미친 ( x )madmed|xmed(x)|mad(x)

mad=1.4826×med|xmed(x)|

여기서 , x 가 오염되지 않았을 때 E ( mad ( x ) 2 ) = Var ( x ) 가 원래 가우스 (Walker)에 의해 만들어 지도록하기위한 일관성 요인입니다. , H. (1931)).(Φ1(0.75))1=1.4826

E(mad(x)2)=Var(x)
x

이 경우 샘플 평균 대신 를 사용하지 않는 이유를 생각할 수 없습니다 . (가우스에서!) 낮은 효율의 화가는 사용하지 않는 이유가 될 수 화를 귀하의 예에. 그러나 mad에 대해 동일하고 강력하며 효율적인 대안이 있습니다. 그들 중 하나는 Q n입니다medmadmadmadQn. 이 추정기는 옆에 많은 다른 장점이 있습니다. 또한 특이 치에 대해 매우 둔감합니다 (사실 미치광이만큼 무감각합니다). 미친 것과는 달리, 그것은 위치 추정을 중심으로 구축되지 않았으며 데이터의 오염되지 않은 부분의 분포가 대칭 적이라고 가정하지 않습니다. 미친 것과 마찬가지로 주문 통계를 기반으로하므로 샘플의 기본 분포에 모멘트가없는 경우에도 항상 잘 정의됩니다. 미친 것처럼, 그것은 명백한 형태를 가지고 있습니다. 더욱 미친보다, 나는 아무 이유가 대신 표본 표준 편차를 사용하지 않는 방법을 참조하십시오 은합니다 (에 대한 자세한 정보를 원하시면 Rousseeuw 및 Croux 1993 참조 설명의 예에서 Q의 N ).QnQn

마지막 질문에 대해서는 인 특정 경우에 대해xΓ(ν,λ)

med(x)λ(ν1/3)

mad(x)λν

(두 경우 모두 때 근사값이 좋아짐 ) ν>1.5

ν^=(med(x)mad(x))2

λ^=mad(x)2med(x)

완전한 파생에 대해서는 Chen and Rubin (1986)을 참조하십시오.

  • J. Chen and H. Rubin, 1986 년. 감마와 포아송 분포의 중앙값과 평균의 차이에 대한 경계 프로 밥. Lett., 4, 281–283.
  • PJ Rousseeuw and C. Croux, 1993. 미국 통계 협회의 중간 절대 편차 일지 대안, Vol. 88, No. 424, 1273-1283 쪽
  • 워커, H. (1931). 통계 방법의 역사에 관한 연구. 볼티모어, 메릴랜드 : Williams & Wilkins Co. pp. 24–25.

1
Φ1(0.75)11.4826

@ ErichSchubert : 당신이 맞습니다 : 나는 두 번째 역을 잊어 버렸습니다.
user603

2
n/(n1)

1
@ whuber : 감사합니다. 이제 '이것은 정신과 유사합니다'라는 문장이 쉽게 오해 될 수 있음을 깨달았습니다 . 나는 그것을 제거했다.
user603

1
ExNormal 부분을 별도의 질문으로 만들었습니다 : stats.stackexchange.com/questions/48907/… 그러나 한 가지 더 있습니다 : LogNormal distribution-로그를 적용하여 처리 한 다음 정규 분포와 같이 진행합니까?
Erich Schubert

7

주장하는 바와 같이, 데이터가 일부 특이 치 비율을 제외하고는 정상인 경우, 중앙값 및 절대 값 절대 편차는 총 오류에 강하지 만 외부 데이터가 아닌 데이터의 정보를 매우 효율적으로 사용하지는 않습니다.

일부 알았다면 사전 이상치의 비율에 바인딩 당신은 할 수 트림 평균과에 대한 그 비율 Winsorize 표준 편차를. 그러한 지식이 필요하지 않은 대안 은 분산에 대한 위치 및 관련 수량에 M 추정기 를 사용하는 것 입니다. 가정이 올바른 경우 (예 : 적은 비율의 특이 값을 제외하고 데이터가 실제로 정상인 경우) 효율성이 향상되는 경우가 있습니다.

중앙 편차는 표준 편차의 추정치로 바이어스되지만 과 같지 않습니다.nn1

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.