이항 추정치 0 또는 1에 대한 신뢰 구간


36

추정값이 (또는 유사하게 p = 1 )이고 표본 크기가 비교적 작은 경우 (예 : n = 25 ) 이항 실험의 신뢰 구간을 계산하는 가장 좋은 방법은 무엇입니까 ?p=0p=1n=25


얼마나 가까이 제로이다 p는 ? 자주 0 또는 0.001, 0.01 또는 ... 0입니까? 그리고 얼마나 많은 데이터가 있습니까? p^
jbowman

우리는 보통 800 번 이상의 시험을합니다. 우리는 일반적으로 0.1 0을 기대 Pp^
AI2.0

연결 한 Clopper–Pearson 간격을 사용하십시오. 일반적인 원리 : 먼저 Clopper-Pearson 간격을 시도하십시오. 컴퓨터가 답을 얻을 수 없으면 정규 근사와 같은 근사 방법을 시도하십시오. 현재 컴퓨터 속도에 따르면 대부분의 상황에서 근사치가 필요하다고 생각하지 않습니다.
user158565

(1- 신뢰 수준으로 신뢰 구간의 상한 만 가져 오기 위해 B (1- α ; x + 1, n-x)를 사용합니다. 여기서 x는 성공 (또는 실패)의 수입니다. n은 python에서는을 사용하는데 이것이 참이면 상한값이 ?ααscipy.stats.beta.ppf(1−$\alpha$;x+1,n−x) αscipy.stats.beta.ppf(1−$\alpha$;x+1,n−x)
AI2.0

1
800 번의 시행으로, 일반적인 정규 근사값은 약 까지 합리적으로 잘 작동합니다 (시뮬레이션은 95 % 신뢰 구간의 94.5 % 실제 적용 범위를 나타 냈습니다 ). 1000 번의 시행과 p = 0.01 에서 실제 적용 범위는 약 92.7 %입니다. (모두 100,000 개의 복제를 기반으로 함) 따라서 시험 횟수를 고려할 때 이는 매우 낮은 p에 대해서만 문제가됩니다 . p=0.015p=0.01p
jbowman

답변:


53

정규 근사값을 사용하지 마십시오

이 문제에 대해 많은 글을 썼습니다. 일반적인 조언은 커버리지 속성이 끔찍하기 때문에 정규 근사 (즉, 점근 적 / 구간 신뢰 구간)를 사용 하지 않는 것입니다. 이것을 설명하기위한 R 코드 :

library(binom)
p = seq(0,1,.001)
coverage = binom.coverage(p, 25, method="asymptotic")$coverage
plot(p, coverage, type="l")
binom.confint(0,25)
abline(h=.95, col="red")

이항 비율의 점근 적 신뢰 구간에 대한 적용 확률.

작은 성공 확률의 경우 95 % 신뢰 구간을 요청할 수 있지만 실제로는 10 % 신뢰 구간을 얻습니다!

추천

그래서 무엇을 해야 우리가 사용할 수 있습니까? 나는 현재의 권고가 용지에 나와있는 것들 생각 이항 비율의 구간 추정 브라운, 카이와 다스 굽타에 의해 통계 과학 2001 권. 16 번 2, 101 ~ 133 쪽. 저자는 신뢰 구간을 계산하기위한 몇 가지 방법을 조사하여 다음과 같은 결론을 내렸다.

[W] e는 작은 n에 대해서는 Wilson 간격 또는 등 꼬리 Jeffreys 이전 간격 과 n에 대해서는 Agresti 및 Coull에 제안 된 간격을 권장 합니다.

윌슨 간격은 점수 테스트 반전을 기반으로하기 때문에 점수 간격 이라고도합니다 .

구간 계산

이러한 신뢰 구간을 계산하려면 이 온라인 계산기 또는 R binom.confint()binom패키지에 있는 함수를 사용할 수 있습니다 . 예를 들어 25 회 시행에서 0 회 성공한 경우 R 코드는 다음과 같습니다.

> binom.confint(0, 25, method=c("wilson", "bayes", "agresti-coull"),
  type="central")
         method x  n  mean  lower upper
1 agresti-coull 0 25 0.000 -0.024 0.158
2         bayes 0 25 0.019  0.000 0.073
3        wilson 0 25 0.000  0.000 0.133

다음 bayes은 Jeffreys 간격입니다. ( 등호 간격 type="central"을 얻으려면 인수 가 필요 합니다.)

구간을 계산 하기 전에 사용할 세 가지 방법 중 어떤 것을 사용할지 결정해야 합니다. 세 가지를 모두보고 가장 짧은 것을 선택하면 자연스럽게 너무 작은 적용 확률이 제공됩니다.

빠르고 근사한 답변

마지막으로, n 시도 에서 정확히 0의 성공을 관찰 하고 매우 빠른 근사 신뢰 구간을 원한다면 3 규칙을 사용할 수 있습니다 . 간단히 숫자 3을 n으로 나눕니다 . 위의 예에서 n 은 25이므로 상한은 3/25 = 0.12입니다 (하한은 물론 0).


귀하의 답변을 많이 감사합니다. 이 실제 사례를 상상해보십시오. 천장의 모든 단열재 패널이 올바르게 설치되어 있으면 건축가가 초고층 빌딩에서 테스트해야합니다. 그는 무작위로 선택한 층에 25 개의 천장 패널을 열고이 모든 천장 패널 단열재를 찾습니다. 그래서 우리는 절연 패널을 가질 확률이 Wilson 점수 간격을 기준으로 CI [0.867에서 1] 사이에 95 % 확실성을 가지고 있다고 결론 지을 수 있습니까?
카스퍼

2
나는 '95 % 확실성 '('신뢰 구간의 올바른 해석 '을 위해 구글)으로 결론을 내릴 수 있다고 말하지 않을 것입니다. 또한 이것은 동일한 성공 확률을 가진 독립적 인 시도 에 대한 가정을 기반으로하며 , 여기에서는 현실적이지 않을 수 있습니다. 아마도 마지막으로 설치된 패널이 잘못 설치 될 위험이 더 높을 수 있습니다 (패널을 설치 한 사람이 피곤하거나 지루함). 또는 아마도 첫 경험은 아마도 그 사람이 덜 경험했기 때문일 것입니다. 어쨌든 건축가가 모든 패널이 올바르게 설치되었는지 테스트하라는 메시지가 표시되면 샘플을 테스트하는 것이 아니라 작업을 수행해야합니다!
Karl Ove Hufthammer

5
bayes두 가지 형상 매개 변수가 모두 1 인 경우 균일 한 사전 (제프리 대신)을 사용합니다. 나는 이전의 제프리와 유니폼의 (단점) 장점에 대한 호기심으로 이항 패키지의 관리자에게 이메일을 보냈으며 새 버전이 사용될 것이라고 말했습니다. 기본적으로 균일 한 사전. 결과가 미래에 조금씩 변하는 지 궁금하지 마십시오.
cbeleites는 Monica

3
이것은 훌륭한 답변입니다. 주제에 관한 논문에서 읽을 수있는 모든 주요 정보를 전달하지만 매우 간결하고 명확하게 전달합니다. 내가 두 번 투표 할 수 있다면
SigmaX

6
binconf방법은 Hmisc또한 이러한 간격을 계산합니다. 기본값은 Wilson 메소드입니다.
SigmaX

0

p±zα/2p(1p)/nπ0π0π0

|pπ0|p(1p)/n=0
(1+z02/n)π02+(2pz02/n)π0+p2=0


1
π0

π0pn

아 그레 스티입니다.
Nick Cox

@NickCox는 다른 작품입니다
Jay Schyler Raadt

1
Alan Agresti는 다양한 텍스트를 출판했습니다. 나는 당신이 암시하는 것 같아요 범주 형 데이터 분석에 소개 존 와일리에서 (2018년 10월 게시 예정 3 판을하고 2019 날짜를 수행 할 수있다 2 판 2007).
Nick Cox
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.