표본이 클 때 평균을 추정하기 위해 T- 분포를 사용하는 이유는 무엇입니까?


17

기본 통계 과정에서는 표본 크기 n 이 클 때 (일반적으로 30 또는 50 이상) 모집단 모수의 평균을 추정하기 위해 정규 분포를 사용하는 것이 좋습니다 . 스튜던트의 T- 분포는 표본의 표준 편차에 대한 불확실성을 설명하기 위해 더 작은 표본 크기에 사용됩니다. 표본 크기가 클 경우 표본 표준 편차는 모집단 표준 편차에 대한 좋은 정보를 제공하여 정규 분포 추정치를 허용합니다. 나는 그것을 얻는다.

그러나 신뢰 구간을 정확하게 얻을 수있을 때 왜 추정치를 사용합니까? 표본 크기에 관계없이 정규 분포를 T- 분포로 정확히 얻을 수있는 것으로 추정한다면 정규 분포를 사용하는 요점은 무엇입니까?


@Glen_b 그렇습니다. 구간 추정기입니다. 이 구간에 대해 : "집단 표준 편차 (σ)를 알 수없고 표본 크기가 작은 경우 (n <30) 작업 문제가 발생할 때 t- 분포 테이블을 사용해야합니다"(from web.pdx.edu/~stipakb/ 다운로드 /PA551/NormalVersusTdistribution.doc). 모집단 표준 편차를 알 수 없을 때 (n> 30 인 경우에도) 사람들이 항상 T- 분포를 사용하지 않는 이유는 무엇입니까?
Pertinax

답변:


15

제목과의 관계를 명확히하기 위해 t- 분포를 사용하여 평균 을 추정 하는 것이 아니라 (점수 추정의 의미에서) 간격을 구성합니다.

그러나 신뢰 구간을 정확하게 얻을 수있을 때 왜 추정치를 사용합니까?

좋은 질문입니다 ( '정확하게'에 대해 너무 단호하게하지 않는 한, 정확히 t- 분배 된다는 가정은 실제로 유지되지 않기 때문에).

"집단 표준 편차 (σ)를 알 수없고 표본 크기가 작은 경우 (n <30) 작업 문제를 처리 할 때는 t- 분포 표를 사용해야합니다."

모집단 표준 편차를 알 수 없을 때 (n> 30 인 경우에도) 사람들이 항상 T- 분포를 사용하지 않는 이유는 무엇입니까?

나는 그 조언을 기껏해야 오해의 소지가 있다고 생각합니다. 경우에 따라 자유도가 그보다 훨씬 큰 경우에도 t- 분포를 사용해야합니다.

법선이 합리적인 근사치 인 경우 다양한 요인에 따라 달라지며 상황에 따라 다릅니다. 그러나 (컴퓨터의 경우) t 사용하는 것이 전혀 어렵지 않으므로 df가 매우 크더라도 n = 30에서 다른 일을 걱정 해야하는 이유가 궁금합니다.

표본 크기가 실제로 큰 경우 신뢰 구간과 눈에 띄는 차이는 없지만 n = 30이 항상 '실제적으로'크다고 생각하지는 않습니다.


상황이 아닌 정상을 사용하는 것이 합리적 일 수있는 상황이 있습니다 t데이터가 t- 분포를 얻기위한 조건을 분명히 만족시키지 못하지만 평균의 대략적인 정규성을 주장 할 수는 있습니다.n 은 상당히 큽니다). 그러나 이러한 상황에서 종종 t는 실제로 좋은 근사치이며 다소 '거칠다'. [그런 상황에서는 시뮬레이션을 통해 조사하는 경향이 있습니다.]


2
이 문서에서 α = 5 % 이 좋다는 것을 읽었습니다 . 그러나 나는 그것이 충분하지 않다. n=30α=5%
Stéphane Laurent

1
@ StéphaneLaurent 대부분의 경우 5 % 정도면 괜찮지 만 그러한 판단은 개인에게 달려 있습니다. 오늘 한 번만 발생했던 상황이 있는데, 그 수준의 오류로 충분할 수 있습니다.
Glen_b-복지국 모니카

2
@ StéphaneLaurent Johnson, VE (2013)로부터 적절한 통찰력을 얻을 수 있습니다. 통계적 증거에 대한 개정 표준 . 국립 과학 아카데미의 절차 , 110 (48) : 19313–19317. 이 기사는 포스트- 대부분의 출판 된 연구 결과가 왜 연구에 대한 거짓 비판인가 ( a Science가 잘못되었는지 )
Alexis

4
@ StéphaneLaurent 기사가 내 질문에 대답합니다. 레코드의 결론에 대한 대략적인 번역 : "정규 분포를 학생의 t- 분포에 대한 근사값으로 사용하는 것은 독점적으로 20 세기 기술 한계의 산물입니다. 이러한 한계는 현대 통계 소프트웨어에서 사라졌으며 더 이상 존재하지 않습니다. 이러한 보수적이지 않은 근사치를 사용해야하는 이유 "
Pertinax

2
@TheThunderChimp Caveat : 모집단 분산이 알려진 경우 (예 : 모집단 비율 추정-이분법 변수의 평균), 표준 분포 ( z )이며 t 분포가 적합 하지 않습니다 .
Alexis

7

역사적인 시대입니다. 통계에는 많은 것들이 있습니다.

컴퓨터가 없다면 t- 분포를 사용하기가 어렵고 정규 분포를 사용하는 것이 훨씬 쉽습니다. 표본 크기가 커지면 두 분포가 비슷해집니다 ( '큰'크기는 또 다른 질문입니다).


1
그것은 더 깊은 질문에 대한 매우 얕은 대답 인 것 같습니다.
Alexis

2
당신이 무슨 뜻인지 확실하지. 그 이유가 아니라고 생각하십니까? (가장 찬란한 대답은 더 웅변적이고 정교하게 말하지만 같은 요점을 나타냅니다.)
Jeremy Miles

1
나는 당신의 대답이 다음과 같이 읽히기 때문에 하향 투표했습니다. 질문을 간단히 요약합니다.
Alexis

2
알려 주셔서 감사합니다. 이유를 알지 못하는 익명의 downvote보다 좋습니다.
Jeremy Miles

3
역사적으로, 테이블에서 값을 찾아서 이러한 분포를 "사용"했습니다. 정규 분포를 사용하기가 더 쉬울 수있는 유일한 방법은 자유도에 해당하는 열을 선택할 필요가 없었을 것입니다. 그것은 거의 관심사입니다. 어떤 책이 너무 커질 것 : 제한 사용이 어떤 점에서 그것은 자유의 큰 정도에 테이블을 확장하는 거의 의미가 있다고했다.
whuber

1

ex2n


1
하는 크기는 추정 수치 오류 할 t이 그것을 사용의 이득을 능가은?
jona

2
확실히 t- 값을 임의의 정밀도로 계산할 수 있으므로 비교하는 양만큼 정확할 수 있습니다.
닐 G

"즉,"정확한 "t- 값은"정확한 "것이 아니며 근사 오류 내에서 표준 정규 값의 CDF 값과 같습니다." 이것이 신뢰할만한 경험 법칙인지 잘 모르겠습니다.
shadowtalker

2
25.9325×1016

1
우버, 네 말이 맞아 "숫자 오류"를 잘못 사용했습니다. 나는 적분의 수치 근사, 유한 ​​정밀도로 작업하기위한 수치 오류 및 잘림으로 인한 수치 오류를 처리하는 모든 오류를 의미했습니다. 무한 정도로 작업 할 수 있다면 t- 분포를 정규 분포로 대체 할 정당성이 없을 것입니다.
VictorZurkowski
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.