이 발췌문에서 표준 편차의 편향 추정이 일반적으로 적합하지 않다고 말하는 이유는 무엇입니까?


14

나는 표준 편차의 편견없는 추정과 내가 읽은 소스의 계산에 대해 읽었습니다.

(...) 일부 중요한 상황을 제외하고,이 작업은 유의성 테스트 및 신뢰 구간 사용 또는 베이지안 분석 사용과 같은 표준 절차에 의해 필요하지 않기 때문에 통계 적용과 거의 관련이 없습니다.

예를 들어 신뢰 구간이 계산의 일부로 표준 편차를 사용하지 않는 등 누군가이 진술의 근거를 설명 할 수 있는지 궁금합니다. 따라서 신뢰 구간이 치우친 표준 편차의 영향을받지 않습니까?

편집하다:

지금까지 답변을 주셔서 감사하지만, 나는 그들에 대한 몇 가지 추론을 따르지 않기 때문에 매우 간단한 예를 추가 할 것입니다. 요점은 출처가 정확하면 내 결론에서 예제에 문제가 있으며 p- 값 표준 편차에 어떻게 의존 하지 않는지 누군가에게 지적하고 싶습니다 .

한 연구원이 자신의 도시에서 시험 한 5 학년생의 평균 점수가 0.05의 유의 수준으로 전국 평균 76과 다른지 여부를 테스트하려고한다고 가정합니다. 연구원은 무작위로 20 명의 학생의 점수를 채취했습니다. 표본 평균은 표본 표준 편차 8.87 인 80.85입니다. 이것은 t = (80.85-76) / (8.87 / sqrt (20)) = 2.44를 의미합니다. 그런 다음 t- 테이블을 사용하여 19 df의 2.44에서 양측 확률 값이 0.025임을 계산합니다. 이는 유의 수준 0.05 미만이므로 귀무 가설을 기각합니다.

따라서이 예에서 표본 표준 편차를 추정 한 방법에 따라 p- 값 (및 결론)이 변경되지 않습니까?


2
이것은 당신이주는 이유로 이상하게 보입니다. 어쩌면 우리가 놓친 것이있을 경우를 대비하여 단락을 제공 할 수 있습니까? 치우침이 큰 문제가되지 않는 한 가지는 표본 크기가 커짐에 따라 매우 중요하지 않으며 아마도 다른 모든 문제 (예 : 우리가 일반적으로 가지고있는 모델의 잘못된 사양)와 비교할 때 중요하지 않다는 것입니다. 당신의 근원에서 주어진.
피터 엘리스

1
@PeterEllis, 이것은 실제로 "위반되지 않은 표준 편차 추정"( en.wikipedia.org/wiki/Unbiased_estimation_of_standard_deviation ) 에 대한 Wikipedia 페이지에 있습니다.
BYS2

답변:


17

이에 대해서는 Glen_b에 동의합니다. 요점을 더 명확하게하기 위해 몇 단어를 추가 할 수도 있습니다. 데이터가 분산을 알 수없는 정규 분포 (iid 상황)에서 나온 경우 t 통계량은 신뢰 구간을 생성하고 가설 검정을 수행하는 데 사용되는 중추적 수량입니다. 그 추론에 중요한 것은 귀무 가설 (임계 값 결정)과 대안 (파워와 표본 결정) 하에서의 분포입니다. 이것들은 각각 중앙 및 비 중심 t 분포입니다. 이제 한 번의 표본 문제를 고려할 때 t 검정은 정규 분포의 평균에 대한 검정으로 최적의 특성을 갖습니다. 이제 표본 분산은 모집단 분산의 편견 추정치이지만 제곱근은 모집단 표준 편차의 BIASED 추정기입니다. 그렇지 않습니다 이 BIASED 추정기는 피벗 수량의 분모에 들어갑니다. 이제는 일관된 추정기라는 역할을합니다. 그것이 표본 크기가 무한대로 갈 때 t 분포가 표준 법선에 접근 할 수있게하는 것입니다. 그러나 모든 고정에 대해 편견 은 테스트의 좋은 특성에 영향을 미치지 않습니다.n

제 생각에는 입문 통계 수업에서 편견이 지나치게 강조됩니다. 추정기의 정확성과 일관성은 강조 할 가치가있는 실제 속성입니다.

모수 적 또는 비모수 적 방법이 적용되는 다른 문제의 경우 표준 편차의 추정치가 공식에 포함되지 않습니다.


7
추정치에 의존하지만 자유도가 19 인 t가 적용되는 추정치는 단 하나 뿐이며이 추정치는 표본 분산의 일반적인 추정치의 제곱근입니다. 표준 편차의 다른 추정값을 사용하면 귀무 가설 하에서 검정 통계량에 대한 다른 기준 분포가 있습니다. t가 아닙니다.
Michael R. Chernick

2
@ BYS2 : 예제에서 생성 한 간격과 관련 하여 샘플 표준 편차에 스케일 팩터를 곱하여 (예를 들어, 편향되지 않도록) 변경 하지 않습니다 . 이 경우 테스트 통계 의 분포 는 약간 (약간) 변경되지만 구성된 CI는 정확히 동일하게됩니다! 이제 데이터 자체에 의존하는 "수정"을 수행하면 일반적으로 다른 결과가 나옵니다. Glen의 답변 아래 내 의견을 참조하십시오.
추기경

4
@ BYS2 : 통계량을 사용하는 일반 모형의 경우 CI와 p- 값 사이에 좋은 대응 관계가 있습니다. 따라서 표본 표준 편차를 알려진 상수로 "조정"하면 p- 값이 변경되지 않습니다. 보자 예 ~ T , B = ( ˉ X - μ ) / ( B σ ) = T / B 고정 용 B > 0 . 그런 다음 P ( ~ T b > u ) = P (tppT~b=(X¯μ)/(bσ^)=T/bb>0 및 임계 값 ~ t b , α = b t α , 즉 이들 사이에 일대일 대응이 있습니다. 말이 돼?
P(T~b>u)=P(T>bu)
t~b,α=btα
추기경

1
카디널이 올바르게 지적하는 것은 t 통계량에 상수를 곱하여 본질적으로 다른 표준 편차 추정치를 사용할 수 있다는 것입니다. 검정 통계량에 더 이상 t 분포가 없습니다. 상수 때문에 분포가 약간 다릅니다. 평균은 b의 계수만큼 변하며 표준 편차도 변합니다. 테스트 통계의 임계 값을 계산할 때 위에서 설명한대로 적절하게 변경됩니다.
Michael R. Chernick

1
@ BYS2 네 맞습니다.
Michael R. Chernick

5

t- 통계량과 같은 중추적 수량을 기준으로 계산 된 구간을 고려하십시오. 표준 편차에 대한 추정값의 평균값이 실제로 나오지 않습니다. 구간은 통계 분포에 따라 결정됩니다. 따라서 그 진술은 옳습니다.


1
예. 그러나 통계 분포는 대부분의 경우 알려지지 않은 표준 편차에 의존하지 않으므로 추정기를 사용해야합니까?
BYS2

4
(+1) 글렌. @ BYS2 : 여기 몇 가지 핵심 사항이 있습니다. 첫째, 우리가 중추적 인 수량을 가지고 있다면 신뢰 설정을 구성하는 매우 편리한 수단을 제공하지만 종종 존재하지는 않습니다. 중추적 수량의 요점은 분포가 순전히 알려진 양 에 의존한다는 것 입니다. 둘째, 중추적 수량은 기본 모델과 밀접한 관련이 있습니다. 데이터가 가정 된 모델에서 벗어난 경우 검정 통계량의 분포도 중요 할 수 있으며 중추적 수량으로서의 특성은 그다지 적절하지 않을 수 있습니다. :)
추기경

4

해석은 항상 부분적인 추측이지만 내포 된 의미는 종종 표준 편차를 명시 적으로 추정하지 않고 원하는 결과를 얻을 수 있다는 것입니다. 다시 말해, 저자는 편향된 추정값 대신 표준 편차의 추정값을 사용 하지 않는 상황을 언급하고 있다고 생각합니다 .

예를 들어 통계의 전체 분포에 대한 추정치를 구성 할 수있는 경우 표준 편차를 사용하지 않고 신뢰 구간을 계산할 수 있습니다. 실제로 많은 비정규 분포에 대해 표준 편차 자체 (및 평균)로는 신뢰 구간의 추정치를 계산하기에 충분하지 않습니다. 부호 테스트 와 같은 다른 경우 에는 표준 편차에 대한 추정값도 필요하지 않습니다.

(물론, 전체 분포 의 편견없는 추정치 를 구성하는 것은 사소한 것이 아니며 , 베이지안 통계에서는 이전을 통해 명시 적으로 편향을 도입하는 것이 실제로 일반적입니다.)


1
마지막 단락의 의미를 조금 더 확장하는 것이 흥미로울 수 있습니다. 예를 들어, 통계의 분포에서 표본을 추출 할 수있는 경우 경험적 cdf는 분산 함수의 점별 편견 추정치를 생성하는 매우 쉽고 간단한 방법을 제공합니다. :)
추기경

1
maxiXimaxiXiXi

1
XiimaxiXi

2
이것은 사실이며 내가 뽑으려고했던 시점에 가깝습니다. 마지막 단락의 첫 번째 문장은 예를 들어 단일 랜덤 샘플로부터 비선형 통계 함수의 편향 추정치를 구성하는 것을 지칭한다. 이것은 함수 자체의 랜덤 표본으로부터 완전 분포의 편견 추정치를 구성하는 것과는 상당히 다릅니다. :-)
추기경
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.