중앙값의 표준 오차


14

정규 분포가 아닌 작은 표본의 경우 중간 값의 표준 오차를 측정하려면 다음 공식이 올바른가요? (파이썬을 사용하고 있습니다)?

 sigma=np.std(data)
 n=len(data)
 sigma_median=1.253*sigma/np.sqrt(n)

답변:


12

@mary의 의견 중 일부에 따르면 다음이 적합하다고 생각합니다. 표본이 작기 때문에 중앙값을 선택하는 것 같습니다.

작은 표본이기 때문에 중간 값을 선택한 경우에는 타당성이 없습니다. 중앙값이 중요한 값이므로 중앙값을 선택합니다. 그것은 평균과 다른 것을 말합니다. 특이 치나 기울기와 같은 특정 문제에 대해 강력하기 때문에 일부 통계 계산을 위해 선택할 수도 있습니다. 그러나 작은 샘플 크기는 강력한 문제 중 하나가 아닙니다. 예를 들어 표본 크기가 작아지면 실제로 평균보다 기울기에 훨씬 더 민감합니다.


고마워 존! 실제로 나는 방금 쓴 이유 때문에 평균 대신 중간 값을 사용하기로 결정했습니다. 나는 다른 샘플을 가지고 있는데, 모두 가우스 분포가 아닙니다. 50 점 이상을 포함하는 샘플이 있고 10 점 미만을 포함하는 다른 샘플이 있지만 모든 의견에 대해 귀하의 의견이 유효하다고 생각합니까?
mary

몇 가지 요점으로 기본 분포에 대해 어떻게 말할 수 있는지 잘 모르겠습니다. 10 미만의 표본을 50을 포함하는 표본과 비교하고 기본 분포가 대칭이 아닌 경우 중간 값이없는 경우에도 중간 값은 큰 표본보다 작은 표본에 더 많은 편향이 있기 때문에 효과를 나타냅니다. 평균은 그렇지 않습니다.
John

앞으로 당신의 질문을 더 잘 풀어 내고 정말로 알아야 할 것에 대해 더 많이 물어보십시오. 지금까지 수행 한 작업을 수행 한 이유를 말하고 자신이 가지고있는 데이터를 설명하십시오. 더 나은 답변을 얻을 수 있습니다.
John

1
" 작은 샘플 크기는 강력한 문제 중 하나가 아닙니다. "자체적으로 +1의 가치가 있습니다. 나머지는 보너스입니다
Glen_b-복지국 모니카

실제로 Huber는 그의 책에서 견고성이라는 단일 개념이 없다는 점을 지적합니다. 특이 치에 대한 견고성이 있습니다 (중간 값이 강력 함). 그러나 또 다른 관점은 측정 오류에 대한 견고성이며, 이러한 측정 오류의 평균으로 평균이 견고합니다. 그러나 중앙값은 테일만큼 심하게 분포의 중간에 영향을 줄 수 있기 때문에 측정 오류 변동에 매우 취약합니다.
StasK

12

소칼 (Sokal)과 롤프 (Rohlf)는이 공식을 그들의 책 생체 측정법 (139 페이지)에 제시합니다. "적용성에 대한 의견"에서 그들은 다음과 같이 쓴다 . 따라서 귀하의 질문에 대한 답변이 아니요라고 두려워합니다. 여기도 참조 하십시오 .

비정규 분포를 갖는 작은 표본에서 중앙값에 대한 표준 오차 및 신뢰 구간을 얻는 한 가지 방법은 부트 스트랩입니다. 이 포스트 는 부트 스트랩을위한 Python 패키지에 대한 링크를 제공합니다.

경고

@whuber는 부트 스트랩의 정당성이 비대칭 적이므로 작은 샘플에서 중간 값을 부트 스트래핑하는 것이 그다지 유익하지 않다고 지적했습니다 (아래 주석 참조).


답변 주셔서 감사합니다! 부트 스트랩이 대안이 될 수 있다는 것을 알고 있습니다. 다른 방법으로 중간 값의 오차를 측정하는 방법이 있는지 추측하고있었습니다. MEAN (동일한 작은 비 가우시안 샘플)의 표준 오류에 대한 답도 아니오입니까?
mary

@mary 평균의 표준 오차에 대해 Sokal과 Rohl은 "[...] 유한 분산을 가진 모든 모집단에 적용 할 수 있다고 기록합니다. 따라서 평균의 표준 오차에 대한 답은 예인 것 같습니다 . 계산할 수 있습니다. 참고 : 정의 된 분산 또는 평균이없는 분포 (예 : Cauchy 분포)가 있으며 이러한 경우 SEM을 계산할 수 없습니다.
COOLSerdash

5

@whuber 귀하의 의견에 감사드립니다. 알아두면 좋습니다. 내 대답에서 작은 샘플의 중간 값을 부트 스트랩하라는 조언을 삭제했습니다.
COOLSerdash

1
나는 그것이 나쁜 충고를 암시하려고하지 않았다 : 나는 그것의 (피할 수없는) 한계를 지적하고 싶었다. 작은 샘플에서 많은 것을 배우는 것은 어렵습니다. 그러나 작은 표본을 부트 스트래핑하는 것은 그것을지지 할 이론적 정당성이 없기 때문에 두 배로 복잡하다 (모든 정당화는 점근 적이다).
whuber

12

As.Var.[m^]=14f(m)2n
mf(m)

m^

  1. 분산에 대한 점근 적 공식은 작은 표본에 적용됩니다.
  2. 추정 된 중앙값은 실제 중앙값에 충분히 가깝습니다.
  3. 커널 밀도 추정기는 정확한 값을 제공합니다.

샘플 크기가 작을수록 더 모호합니다.


3
아마도 매직 넘버가 라고 덧붙일 가치가 있습니다.π21.253314
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.