베르누이 샘플링에 대한 신뢰 구간

Bernoulli 임의 변수 의 임의 샘플이 있습니다 . 여기서 는 iidrv이고 이고 는 알 수없는 매개 변수입니다. $X_1 ... X_N$ $X_i$ $P(X_i = 1) = p$ $p$

분명히 : 대한 추정치를 찾을 수 있습니다 . $p$ $\hat{p}:=(X_1+\dots+X_N)/N$

내 질문은 어떻게 대한 신뢰 구간을 만들 수 있습니까? $p$

confidence-interval binomial bernoulli-distribution

— 아메바의 말에 따르면 복원 모니카
소스

위키 백과에는 베르누이 샘플링에 대한 신뢰 구간 을 계산하는 방법에 대한 세부 사항이 있습니다.

답변:

경우 평균 아닌 가까운 또는 , 및 샘플 크기 즉 (충분히 큰 및 , 자신감 구간은 정규 분포와 이렇게 구성된 신뢰 구간으로 추정 할 수 있습니다. $\hat{p}$ $1$ $0$ $n$ $n\hat{p}>5$ $n(1-\hat{p})>5$

$\hat{p} \pm z_{1 - α / 2} \sqrt{\frac{\hat{p} (1 - \hat{p})}{n}}$ $\hat{p}\pm z_{1-\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$
경우 및 상기 신뢰 구간이 약을 (Javanovic 레비, 1997) ; 그 반대는 입니다. 참조는 또한 및 (나중에 사전 정보를 통합하기 위해)를 사용하는 방법을 설명합니다. $\hat{p} = 0$ $n>30$ $95\%$ $[0,\frac{3}{n}]$ $\hat{p}=1$ $n+1$ $n+b$
Else Wikipedia 는 정규 근사, 윌슨 점수, Clopper-Pearson 또는 Agresti-Coull 간격 이외의 추정값 사용에 대한 자세한 내용은 Agresti and Couli (1998) 및 Ross (2003)를 잘 설명하고 설명합니다. 이는 및 에 대한 위의 가정 이 충족되지 않을 때 더 정확할 수 있습니다 . $n$ $\hat{p}$

R은 기능을 제공 binconf {Hmisc}하고 binom.confint {binom}이는 다음의 방식으로 사용될 수있다 :

set.seed(0)
p <- runif(1,0,1)
X <- sample(c(0,1), size = 100, replace = TRUE, prob = c(1-p, p))
library(Hmisc)
binconf(sum(X), length(X), alpha = 0.05, method = 'all')
library(binom)
binom.confint(sum(X), length(X), conf.level = 0.95, method = 'all')

아 그레 스티, 앨런; Coull, Brent A. (1998). "이항 비율의 구간 추정에있어 대략적인 것이 '정확한'것보다 낫습니다." 미국 통계 학자 52 : 119–126.

Jovanovic, BD 및 PS Levy, 1997. 세 가지 규칙을 살펴보십시오. 미국 통계 학자 Vol. 51 권 2 호 137-139 쪽

로스, TD (2003). "이항 비율 및 푸 아송 비율 추정에 대한 정확한 신뢰 구간". 생물학과 의학 33에있는 컴퓨터 : 509–531.

— 데이비드 르 바우어
소스

(+1) 좋은 답변입니다. 이것은 앞으로 비슷한 질문에 대한 참조가 될 것이라고 생각합니다. 그러나 교차 게시는 일반적이지 않습니다. 사실, 피드백 / 참조 / 스레딩 / 코멘트 시스템의 많은 측면을 망쳐 놓았 기 때문에 눈살을 찌푸리게 믿습니다. 사본 중 하나를 제거하고 주석의 링크로 바꾸십시오.

— whuber

의견을 보내 주셔서 감사합니다. 다른 사본을 제거했습니다.

— David LeBauer 2018 년

첫 번째 공식에서 z1과 alpha는 무엇입니까?

— Cirdec

내 질문에 대한 답을 찾았습니다. 는 표준 정규 분포 의 백분위 수이고 는 오차 백분위 수입니다. en.wikipedia.org/wiki/Binomial_proportion_confidence_interval

z_{1 - α / 2}

$z_{1-\alpha/2}$

1 - α / 2

${1-\alpha/2}$

α

$\alpha$

— Cirdec

두 번째 글 머리표의 신뢰 구간에서 이어야 합니까?

3 / n

$3/n$

— Juan A. Navarro

최대 가능성 신뢰 구간

베르누이 (Beroulli) 샘플에 대한 정규 근사치는 상대적으로 큰 샘플 크기와 테일에서 멀리 떨어진 샘플 비율을 사용합니다. 최대 우도 추정값은 로그 변환 확률에 초점을 맞추고 대신 사용해야하는 비대칭적이고 효율적인 구간을 제공합니다 . $p$

로그 홀수를 $\hat{\beta}_0 = \log(\hat{p}/(1-\hat{p}))$

대한 1- CI 는 다음과 같습니다. $\alpha$ $\beta_0$

CI (β_{0})_{α} = {\hat{β}}_{0} \pm Z_{α / 2} \sqrt{1 / (n \hat{p} (1 - \hat{p})}

$\text{CI}(\beta_0)_\alpha = \hat{\beta}_0 \pm \mathcal{Z}_{\alpha/2} \sqrt{1/(n\hat{p}(1-\hat{p})}$

그리고 이것은 다음 과 같이 에 대해 (비대칭) 간격으로 다시 변환됩니다 . $p$

CI (p)_{α} = 1 / (1 + \exp (- CI (β_{0})_{α})

$\text{CI}(p)_\alpha = 1/(1+\exp(-\text{CI}(\beta_0)_\alpha)$

이 CI는 비율이 0 또는 1 사이의 간격에 있고 CI가 항상 올바른 수준 인 동안 일반 간격보다 좁다는 이점이 있습니다. 다음을 지정하여 R에서 매우 쉽게 얻을 수 있습니다.

set.seed(123)
y <- rbinom(100, 1, 0.35)
plogis(confint(glm(y ~ 1, family=binomial)))

    2.5 %    97.5 % 
0.2795322 0.4670450

정확한 이항 신뢰 구간

작은 샘플에서는 MLE에 대한 정규 근사값이 샘플 비율에 대한 정규 근사값보다 우수하지만 신뢰할 수 없습니다. 괜찮아. 는 이항 밀도 를 따르도록 취할 수 있습니다 . 대한 경계 는이 분포에서 2.5 번째 및 97.5 번째 백분위 수를 사용하여 찾을 수 있습니다. $Y = n\hat{p}$ $(n,p)$ $\hat{p}$

{CI}_{α} = (F_{\hat{p}}^{- 1} (0.025), F_{\hat{p}}^{- 1} (0.975))

$\text{CI}_\alpha = (F^{-1}_{\hat{p}}(0.025), F^{-1}_{\hat{p}}(0.975))$

드물게 가능하지만, 계산 방법을 사용하여 대한 정확한 이항 신뢰 구간을 얻을 수 있습니다 . $p$

qbinom(p = c(0.025, 0.975), size = length(y), prob = mean(y))/length(y)
[1] 0.28 0.47

편견없는 신뢰 구간 중간 값

그리고 가 정확히 0 또는 1 인 경우, 중앙 편향되지 않은 추정값을 사용하여 중앙 편향되지 않은 확률 함수를 기반으로 비단 수 구간 추정값을 얻을 수 있습니다. 모든 0 사례의 하한을 0 WLOG로 간단히 취할 수 있습니다. 상한은 비율로 다음을 충족합니다. $p$ $p_{1-\alpha/2}$

p_{1 - α / 2} : P (Y = 0) / 2 + P (Y > y) > 0.975

$p_{1-\alpha/2} : P(Y = 0)/2 + P(Y > y) > 0.975$

이것은 또한 계산 루틴입니다.

set.seed(12345)
y <- rbinom(100, 1, 0.01) ## all 0
cil <- 0
mupfun <- function(p) {
  0.5*dbinom(0, 100, p) + 
    pbinom(1, 100, p, lower.tail = F) - 
    0.975
} ## for y=0 successes out of n=100 trials
ciu <- uniroot(mupfun, c(0, 1))$root
c(cil, ciu)

[1] 0.00000000 0.05357998 ## includes the 0.01 actual probability

마지막 두 가지 방법은 epitoolsR 의 패키지에서 구현 됩니다.

— AdamO
소스