보통 근사치가 자주 사용되기 때문에 대칭이라고 믿어집니다. 이것은 p가 약 0.5 인 경우에 충분합니다. binom.test
반면에 F 분포를 기반으로 한 "정확한"Clopper-Pearson 간격을보고 합니다 ( 두 접근 방식의 정확한 공식 은 여기 참조 ). 우리가 R에 Clopper - 피어슨 간격을 구현하는 것이 있다면 그것은 같은 (참조 될 것이다 참고 )
Clopper.Pearson <- function(x, n, conf.level){
alpha <- (1 - conf.level) / 2
QF.l <- qf(1 - alpha, 2*n - 2*x + 2, 2*x)
QF.u <- qf(1 - alpha, 2*x + 2, 2*n - 2*x)
ll <- if (x == 0){
0
} else { x / ( x + (n-x+1)*QF.l ) }
uu <- if (x == 0){
0
} else { (x+1)*QF.u / ( n - x + (x+1)*QF.u ) }
return(c(ll, uu))
}
링크와 구현에서 상한과 하한에 대한 공식이 완전히 다르다는 것을 알 수 있습니다. 대칭 신뢰 구간의 유일한 경우는 p = 0.5입니다. 링크의 공식을 사용 하고이 경우 하면 그것이 어떻게 나오는지 쉽게 알 수 있습니다.n=2×x
나는 물류 접근 방식에 따라 신뢰 구간을 더 잘 보는 것이 개인적으로 이해했다. 이항 데이터는 일반적으로 다음과 같이 정의 된 로짓 연결 함수를 사용하여 모델링됩니다.
logit(x)=log(x1−x)
이 링크 함수는 로지스틱 회귀 분석에서 오류 항을 정규 분포에 "매핑"합니다. 결과적으로 로지스틱 프레임 워크의 신뢰 구간은 고전 선형 회귀 프레임 워크에서와 같이 로짓 값을 중심으로 대칭입니다. 로짓 변환은 선형 회귀에 대한 정규성 기반 이론 전체를 사용할 수 있도록 정확하게 사용됩니다.
역변환을 수행 한 후 :
logit−1(x)=ex1+ex
비대칭 간격이 다시 나타납니다. 이제 이러한 신뢰 구간은 실제로 편향되어 있습니다. 그들의 범위는 특히 이항 분포의 경계에서 기대하는 것이 아닙니다. 그러나 이항 분포가 비대칭 신뢰 구간을 갖는 것이 논리적 인 이유를 설명합니다.
R의 예 :
logit <- function(x){ log(x/(1-x)) }
inv.logit <- function(x){ exp(x)/(1+exp(x)) }
x <- c(0.2, 0.5, 0.8)
lx <- logit(x)
upper <- lx + 2
lower <- lx - 2
logxtab <- cbind(lx, upper, lower)
logxtab # the confidence intervals are symmetric by construction
xtab <- inv.logit(logxtab)
xtab # back transformation gives asymmetric confidence intervals
참고 : 실제로 R은 베타 분포를 사용하지만 이는 완전히 동등하며 계산적으로 조금 더 효율적입니다. 따라서 R의 구현은 여기에 표시된 것과 다르지만 정확히 동일한 결과를 제공합니다.