비율에 대한 신뢰 구간을 구성하기 위해 t- 분포를 사용하지 않는 이유는 무엇입니까?


18

알 수없는 모집단 표준 편차 (sd)의 평균에 대한 신뢰 구간 (CI)을 계산하기 위해 t- 분포를 사용하여 모집단 표준 편차를 추정합니다. 특히 여기서 입니다. 그러나 모집단의 표준 편차에 대한 점 추정치가 없으므로 근사 통해 추정합니다. 여기서CI=X¯±Z95%σX¯σX¯=σnCI=X¯±t95%(se)se=sn

반대로 인구 비율의 경우 CI를 계산하기 위해 CI 와 비슷합니다. 여기서 제공 및CI=p^±Z95%(se)se=p^(1p^)nnp^15n(1p^)15

제 질문은 왜 인구 비율에 대한 표준 분포에 만족합니까?


1
내 직감에 따르면 이것은 두 번째 알 수없는 평균의 표준 오차 인 를 가져 와서 계산을 완료하기 위해 샘플에서 추정되기 때문입니다. 비율의 표준 오차에는 추가 미지수가 포함되지 않습니다. σ
복원 모니카

@GavinSimpson 설득력있는 소리. 실제로 우리가 t 분포를 도입 한 이유는 표준 편차 근사를 보상하기 위해 도입 된 오차를 보상하기위한 것입니다.
Abhijit 2016 년

3
분포 가 표본 분산과 정규 분포의 표본에서 표본 평균 의 독립성 에서 발생 하는 반면, 이항 분포의 표본의 경우 두 양이 독립적 이 아니기 때문에 부분적으로 설득력이 떨어지는 것으로 나타났습니다. t
whuber

@Abhijit 일부 교과서에서는 t- 분포를이 통계량의 근사치로 사용합니다 (특정 조건 하에서). n-1을 df로 사용하는 것 같습니다. 나는 그것에 대한 공식적인 논쟁을 아직 보지 못했지만 근사치는 종종 꽤 잘 작동하는 것처럼 보인다. 내가 확인한 경우에는 일반적으로 정규 근사치보다 약간 낫습니다 (그러나 t 근사에는 부족한 확실한 점근 적 주장이 있습니다). [편집 : 내 자신의 수표는 그 whuber 쇼와 다소 비슷했습니다. z와 t의 차이는 통계와의 불일치보다 훨씬 작습니다.]
Glen_b -Reinstate Monica

1
아마도 t가 거의 항상 더 나아질 것으로 기대하거나 아마도 특정 조건에서 더 나아질 것이라고 확신 할 수있는 가능한 주장이있을 수 있습니다 (예를 들어 시리즈 확장의 초기 용어를 기반으로 할 수도 있음). 이런 종류의 주장을 보지 못했습니다. 개인적으로 나는 일반적으로 z를 고수하지만 누군가 t를 사용하더라도 걱정하지 않습니다.
Glen_b-복지 주 모니카

답변:


20

표준 정규 분포와 스튜던트 t 분포는

Z=p^pp^(1p^)/n

작은 경우 오차가 너무 커서이 두 분포의 차이가 줄어 듭니다.n,

여기 세 분포 (생략 사례를 비교 P 또는 1 - p는 비율이 정의되지 제로이다)에 대해 N = 10 , P = 1 / 2 :p^1p^n=10,p=1/2:

그림 1

은 "경험"분포이다의 Z, 추정 된 때문에 이산 있어야 P는 유한 세트에 한정되는 { 0 , 1 / N , 2 / N , ... , N / N } .p^{0,1/n,2/n,,n/n}.

t 분포는 근사의 더 나은 일을 할 것으로 보인다.

를 들어 n=30p=1/2, 당신은 표준 일반 및 학생 t 분포의 차이는 완전히 무시할 볼 수 있습니다 :

그림 2

Student t 분포는 표준 정규보다 복잡하기 때문에 (이전에는 단일 페이지가 아닌 전체 테이블 장을 필요로하는 "자유도"에 의해 인덱스 된 전체 분포 계열이므로 거의 모든 표준에 표준 Normal이 사용됩니다. 근사치.


2
품질 답변. +1
Demetri Pananos 2018

10

평균에 대한 신뢰 구간에서 t 분포를 사용하는 데 대한 근거는 기본 데이터가 정규 분포를 따르고 표준 편차를 추정 할 때 카이 제곱 분포로 이어지고 ˉ xμ로 가정한다는 가정에 의존합니다.x¯μs/ntn1. 이것은 데이터가 정확히 정상이라는 가정 하의 정확한 결과이며,t사용할 때는 정확히 95 %의 적용 범위,z사용하는 경우에는 95 % 미만의신뢰 구간으로 이어집니다.

비율에 대한 월드 간격의 경우, 당신은 단지에 대한 점근 정규성을받을 P - Pp^pp^(1p^)/nn이 P에 따라 충분히 큰 것이다. 기본 성공 횟수가 불연속이기 때문에 절차의 실제 적용 확률은 때때로 미지의p에 따라 95 %의 명목 적용 확률보다 낮고 때로는 높습니다. 따라서t사용에 대한 이론적 근거는 없으며t를 사용하여 구간을 더 넓게 만드는실제적인 관점에서실제로 95 %의 공칭 범위를 달성하는 데 도움이된다는 보장은 없습니다.

커버리지 확률은 정확하게 계산할 수 있지만 시뮬레이션하는 것은 매우 간단합니다. 다음 예는 n = 35 일 때의 모의 적용 범위 확률을 보여줍니다. z- 간격을 사용하기위한 적용 확률은 일반적으로 .95보다 약간 작으며, t- 간격을위한 적용 가능성은 일반적으로 p의 그럴듯한 값에 대한 이전의 신념에 따라 평균 .95에 약간 더 가깝다는 것을 보여줍니다 .

enter image description here

enter image description here


3
+1 이것은 학생 t와 일반 CI의 상대적인 정확성에 대해 제가 주장한 주장의 예입니다 (엄격한 시연이 아니라 CDF의 그래프 만 검사 한 결과에 근거 함).
whuber

6

AdamO와 jsk는 모두 훌륭한 답변을 제공합니다.

나는 평범한 영어로 포인트를 반복하려고합니다.

기본 분포가 정규이면 평균분산 이라는 두 가지 매개 변수가 있음을 알 수 있습니다 . T 분포는 분산의 정확한 값을 모른 채 평균을 추론하는 방법을 제공합니다. 실제 분산을 사용하는 대신 표본 평균과 표본 분산 만 필요합니다. 그것이 정확한 분포이기 때문에, 당신은 무엇을 얻고 있는지 정확하게 알고 있습니다. 즉, 적용 확률이 정확합니다. t의 사용법은 단순히 알려지지 않은 인구 분산을 피하려는 욕구를 반영합니다.

그러나 우리가 비례 추론을 할 때, 기본 분포는 이항입니다. 정확한 분포를 얻으려면 Clopper-Pearson 신뢰 구간을 확인해야합니다. 제공하는 공식은 Wald 신뢰 구간의 공식입니다. 정규 분포 는 이항 분포의 제한 분포이므로 정규 분포를 사용하여 이항 분포를 근사화 합니다. 이 경우 근사치에 불과하기 때문에 t 통계 사용으로 인한 추가 정밀도 수준이 불필요 해지며 이는 모두 경험적인 성능으로 귀결됩니다. BruceET의 답변에서 제안한 바와 같이, Agresti-Coull은 오늘날 이러한 근사치에 대한 단순하고 표준적인 공식입니다.

Texas A & M의 Longnecker 교수는 이항 기반 CI와 비교하여 다른 근사가 어떻게 작동하는지 설명하기 위해 간단한 시뮬레이션을 수행했습니다.

Comparison of Various 95% C.I.’s for Proportion

자세한 정보는 통계 과학 의 이항 비례대한 구간 추정 기사 , Vol. 16, pp. 101-133, L. Brown, T. Cai 및 A. DasGupta. 기본적으로 AC CI는 n> = 40에 권장됩니다.

enter image description here


3

정규 평균에 대한 신뢰 구간입니다. 정규 모집단 의 랜덤 표본 X1,X2,Xn 이 있다고 가정 합니다. 가설 검정 측면에서 정규 평균 μ 에 대한 신뢰 구간을 살펴 보겠습니다 . 경우 σ 공지되어 다음의 양면 테스트 H0:μ=μ0 대하여 Ha:μμ0 통계에 기초 Z=X¯μ0σ/n.경우H0에 해당하고,ZNorm(0,1),우리는 거부H0의 경우 5 % 수준에서|Z|1.96.

그런 다음 '테스트를 반전', 우리에 대한 95 % CI 말 μ 값으로 구성 μ0 의 '믿을 수'값 - 거부로 이어질하지 않습니다 μ.CI는 X¯±1.96σ/n,여기서표준 정규 분포의 상단 및 하단 꼬리에서 각각±1.96컷 확률 0.025.

인구 표준 편차의 경우 σ 알 수없는 샘플 표준 편차에 의해 추정이다 S, 우리는 통계 사용 T=X¯μ0S/n.1900 년대 초반에 사람들은T가충분히 큰n대해 표준 표준이라고 가정하고S를 알려지지 않은σ.의 대체물로사용했습니다. 얼마나 많은수가 충분히큰지에 대한 논쟁이있었습니다.

결국, n - 1 자유도를 갖는 스튜던트 t 분포 인 TT(ν=n1), 것으로 알려져있다 . 따라서 σ 를 모르는 경우에는 ˉ X ± t S / n1σX¯±tS/n,여기서±tT(n-1)의 위쪽 및 아래쪽 꼬리에서 각각 0.025의 절단 확률 0.025.T(n1).

[ 참고 : 들어 n>30, 사람들은이에 대한 95 % CI에 나타났습니다 t21.96.따라서 σ 를 알 수없고 n > 30 Sσ 대치 할 수 있다는 세기의 오래된 생각은 최근에 출판 된 일부 책에서도 지속되었다.]σn>30,

이항 비율에 대한 신뢰 구간입니다. 이항 법의 경우, n 개의 독립적 인 실험을 가진 이항 실험에서 X 성공을 관찰했다고 가정 합니다. 그럼 사용 P = X / N을 이항 성공 확률의 추정치로서 P . 시험하기 위해 H 0 : P = P 0H : P P > 0 , 우리는 statitic 사용 Z = P를 - P 0np^=X/np.H0:p=p0Ha:pp>0,Z=p^p0p0(1p0)/n.H0,하에서,ZaprxNorm(0,1).임을 알 수있다. 우리가 거부 그래서H0경우|Z|1.96.

p, 대해 95 % CI를 얻기 위해이 테스트를 뒤집으려고하면 몇 가지 어려움이 있습니다. 테스트를 반전 할 수있는 '쉬운'방법은 서면으로 시작하는 것입니다 P ± 1.96 p^±1.96p(1p)n.pn,p^p.p^±1.96p^(1p^)n.n

nˇ=n+4pˇ=(X+2)/nˇpˇ±1.96pˇ(1pˇ)nˇ.

μp

Sσσ

p^pp^p.pn.


2

σ

σ

σ

σ

또한이 질문은 이 질문에 의해 요청 된 답변을 반영한다는 점에 유의해야합니다 .


2
아래에 게시 된 가명 Gosset은 "Student-T"가 아닌 "Student"입니다. 그는 또한 실제로 표준 t- 분포 자체를 생각해 내지 않았으며, 실제로 t- 통계량을 다루는 통계도 아니 었습니다. 피셔의 작품에서). Fisher는 통계를 작성하는 방식을 작성했습니다. 피셔는 그것을 t라고 불렀습니다. Fisher는 공식적으로 통계 분포를 도출했습니다 (통계 버전에 대한 Gosset의 대수, 직관 및 수반되는 시뮬레이션 인수가 올바른 것으로 표시됨)
Glen_b-복지국 Monica

1
Gosset의 1908 년 논문 (여기 : archive.org/details/biometrika619081909pear/page/n13)을 참조 하십시오 . LaTeX 에서 다시 작성된 논문에 대한 훌륭한 읽을 수있는 PDF도 있습니다 . Steamboat Willie 보다 몇 년이 더 오래 걸리기 때문에 이것은 저작권이 없습니다 .
Glen_b-복지 주 모니카

@Glen_b 감사합니다! 나는 역사상 명백히 잘못된 일화를 삭제했다.
AdamO
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.