베르누이 샘플링에 대한 신뢰 구간


42

Bernoulli 임의 변수 의 임의 샘플이 있습니다 . 여기서 는 iidrv이고 이고 는 알 수없는 매개 변수입니다.X1...XNXiP(Xi=1)=pp

분명히 : 대한 추정치를 찾을 수 있습니다 .pp^:=(X1++XN)/N

내 질문은 어떻게 대한 신뢰 구간을 만들 수 있습니까?p


2
위키 백과에는 베르누이 샘플링에 대한 신뢰 구간 을 계산하는 방법에 대한 세부 사항이 있습니다.

답변:


52
  • 경우 평균 아닌 가까운 또는 , 및 샘플 크기 즉 (충분히 큰 및 , 자신감 구간은 정규 분포와 이렇게 구성된 신뢰 구간으로 추정 할 수 있습니다.p^10nnp^>5n(1p^)>5

    p^±z1α/2p^(1p^)n
  • 경우 및 상기 신뢰 구간이 약을 (Javanovic 레비, 1997) ; 그 반대는 입니다. 참조는 또한 및 (나중에 사전 정보를 통합하기 위해)를 사용하는 방법을 설명합니다.p^=0n>3095%[0,3n] p^=1n+1n+b

  • Else Wikipedia 는 정규 근사, 윌슨 점수, Clopper-Pearson 또는 Agresti-Coull 간격 이외의 추정값 사용에 대한 자세한 내용은 Agresti and Couli (1998) 및 Ross (2003)를 잘 설명하고 설명합니다. 이는 및 에 대한 위의 가정 이 충족되지 않을 때 더 정확할 수 있습니다 .np^

R은 기능을 제공 binconf {Hmisc}하고 binom.confint {binom}이는 다음의 방식으로 사용될 수있다 :

set.seed(0)
p <- runif(1,0,1)
X <- sample(c(0,1), size = 100, replace = TRUE, prob = c(1-p, p))
library(Hmisc)
binconf(sum(X), length(X), alpha = 0.05, method = 'all')
library(binom)
binom.confint(sum(X), length(X), conf.level = 0.95, method = 'all')

아 그레 스티, 앨런; Coull, Brent A. (1998). "이항 비율의 구간 추정에있어 대략적인 것이 '정확한'것보다 낫습니다." 미국 통계 학자 52 : 119–126.

Jovanovic, BD 및 PS Levy, 1997. 세 가지 규칙을 살펴보십시오. 미국 통계 학자 Vol. 51 권 2 호 137-139 쪽

로스, TD (2003). "이항 비율 및 푸 아송 비율 추정에 대한 정확한 신뢰 구간". 생물학과 의학 33에있는 컴퓨터 : 509–531.


3
(+1) 좋은 답변입니다. 이것은 앞으로 비슷한 질문에 대한 참조가 될 것이라고 생각합니다. 그러나 교차 게시는 일반적이지 않습니다. 사실, 피드백 / 참조 / 스레딩 / 코멘트 시스템의 많은 측면을 망쳐 놓았 기 때문에 눈살을 찌푸리게 믿습니다. 사본 중 하나를 제거하고 주석의 링크로 바꾸십시오.
whuber

의견을 보내 주셔서 감사합니다. 다른 사본을 제거했습니다.
David LeBauer 2018 년

첫 번째 공식에서 z1과 alpha는 무엇입니까?
Cirdec

내 질문에 대한 답을 찾았습니다. 는 표준 정규 분포 의 백분위 수이고 는 오차 백분위 수입니다. en.wikipedia.org/wiki/Binomial_proportion_confidence_intervalz1α/21α/2α
Cirdec

두 번째 글 머리표의 신뢰 구간에서 이어야 합니까? 3/n
Juan A. Navarro

7

최대 가능성 신뢰 구간

베르누이 (Beroulli) 샘플에 대한 정규 근사치는 상대적으로 큰 샘플 크기와 테일에서 멀리 떨어진 샘플 비율을 사용합니다. 최대 우도 추정값은 로그 변환 확률에 초점을 맞추고 대신 사용해야하는 비대칭적이고 효율적인 구간을 제공합니다 .p

로그 홀수를β^0=log(p^/(1p^))

대한 1- CI 는 다음과 같습니다.αβ0

CI(β0)α=β^0±Zα/21/(np^(1p^)

그리고 이것은 다음 과 같이 에 대해 (비대칭) 간격으로 다시 변환됩니다 .p

CI(p)α=1/(1+exp(CI(β0)α)

이 CI는 비율이 0 또는 1 사이의 간격에 있고 CI가 항상 올바른 수준 인 동안 일반 간격보다 좁다는 이점이 있습니다. 다음을 지정하여 R에서 매우 쉽게 얻을 수 있습니다.

set.seed(123)
y <- rbinom(100, 1, 0.35)
plogis(confint(glm(y ~ 1, family=binomial)))

    2.5 %    97.5 % 
0.2795322 0.4670450 

정확한 이항 신뢰 구간

작은 샘플에서는 MLE에 대한 정규 근사값이 샘플 비율에 대한 정규 근사값보다 우수하지만 신뢰할 수 없습니다. 괜찮아. 는 이항 밀도 를 따르도록 취할 수 있습니다 . 대한 경계 는이 분포에서 2.5 번째 및 97.5 번째 백분위 수를 사용하여 찾을 수 있습니다.Y=np^(n,p)p^

CIα=(Fp^1(0.025),Fp^1(0.975))

드물게 가능하지만, 계산 방법을 사용하여 대한 정확한 이항 신뢰 구간을 얻을 수 있습니다 .p

qbinom(p = c(0.025, 0.975), size = length(y), prob = mean(y))/length(y)
[1] 0.28 0.47

편견없는 신뢰 구간 중간 값

그리고 가 정확히 0 또는 1 인 경우, 중앙 편향되지 않은 추정값을 사용하여 중앙 편향되지 않은 확률 함수를 기반으로 비단 수 구간 추정값을 얻을 수 있습니다. 모든 0 사례의 하한을 0 WLOG로 간단히 취할 수 있습니다. 상한은 비율로 다음을 충족합니다.pp1α/2

p1α/2:P(Y=0)/2+P(Y>y)>0.975

이것은 또한 계산 루틴입니다.

set.seed(12345)
y <- rbinom(100, 1, 0.01) ## all 0
cil <- 0
mupfun <- function(p) {
  0.5*dbinom(0, 100, p) + 
    pbinom(1, 100, p, lower.tail = F) - 
    0.975
} ## for y=0 successes out of n=100 trials
ciu <- uniroot(mupfun, c(0, 1))$root
c(cil, ciu)

[1] 0.00000000 0.05357998 ## includes the 0.01 actual probability

마지막 두 가지 방법은 epitoolsR 의 패키지에서 구현 됩니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.