답변:
많은 잦은 신뢰 구간 (CI)은 우도 함수를 기반으로합니다. 이전 분포가 실제로 정보가없는 경우 베이지안 후자는 본질적으로 우도 함수와 동일한 정보를 갖습니다. 결과적으로, 실제로 베이지안 확률 구간 (또는 신뢰할 수있는 구간)은 잦은 신뢰 구간 과 수치 적 으로 매우 유사 할 수 있습니다 . [물론 수치 적으로 비슷하더라도 잦은 빈도와 베이지안 간격 추정치 사이 에는 해석상의 철학적 차이가 있습니다.]
다음은 이항성 성공 확률 추정하는 간단한 예 성공으로 관측치 (시험판) 가 있다고 가정 합니다.
Frequentist : 전통적인 Wald 간격 은 점 추정치 그리고, 95 % CI의 형식이다 할 계산해θ ±1.96√
n = 100; x = 73; th.w = x/n; pm = c(-1,1)
ci.w = th.w + pm*1.96*sqrt(th.w*(1-th.w)/n); ci.w
[1] 0.6429839 0.8170161
이 CI 형식은 관련 이항 분포가 정규 분포에 의해 근사 될 수 있고 오류 마진 이 특히 작은 이러한 가정이 사실 일 필요는 없습니다. [ 또는 가 특히 문제가됩니다.] √n,X=0X=n
Agresti Coull-CI는 보다 정확한 적용 가능성을 가지는 것으로 밝혀졌다. 이 간격은 커버리지 확률을 95 %에 가깝게하는 속임수로 '두 번의 성공과 두 번의 실패'를 추가합니다. 시작점 여기서 . 95 % CI는 은 계산됩니다들면 및 신뢰 구간이 두 스타일의 차이는 거의 무시할 수있다. ~ n +4. ~ θ ±1.96√(0.612,0.792). n>1000.3<~θ<0.7,
ci.a = th.a + pm*1.96*sqrt(th.a*(1-th.a)/n); ci.a
[1] 0.6122700 0.7915761
베이지안 : 이 상황 이전의 인기있는 비 정보적인 정보 중 하나는우도 함수는 비례합니다 이전과 가능성의 커널을 곱하면 사후 분포 의 커널이 θ x ( 1 − θ ) n − x . B e t a ( x + 1 ,
그런 다음 95 % 베이지안 간격 추정값은 사후 분포의 0.025 및 0.975를 Quantile 사전 분포가 '평평한'또는 '비 정보 적'인 경우 베이지안 확률 구간과 Agresti-Coull 신뢰 구간 간의 수치 차이는 미미합니다.
qbeta(c(.025, .975), 74, 28)
[1] 0.6353758 0.8072313
참고 : (a)이 상황에서 일부 베이지안은 정보가없는 이전의 선호합니다(b) 95 %가 아닌 신뢰 수준의 경우, Agresti-Coull CI는 약간 다른 점 추정치를 사용합니다. (c) 이항 이외의 데이터의 경우, 이용 가능한 '플랫'이 없을 수 있지만, 정보가 거의 전달되지 않는 큰 차이 (작은 정밀도)를 갖는 것을 선택할 수 있습니다. (d) Agresti-Coull CI, 적용 범위 확률 그래프 및 일부 참고 자료에 대한 자세한 내용은 이 Q & A를 참조하십시오 .
BruceET의 답변은 훌륭하지만 꽤 길기 때문에 다음과 같은 실용적인 요약이 있습니다.
잦은 신뢰 구간과 동일한 신뢰할 수있는 구간을 생성하기 위해 사전에 해결할 수 있지만, 적용 범위가 얼마나 좁아 지는지를 알아야합니다. 전체 토론은 표본 크기가 고정되어 있고 임의 변수가 아니라고 가정합니다. 데이터를 한 번만보고 순차 추론이 수행되지 않았다고 가정합니다. 종속 변수가 하나만 있고 다른 매개 변수는 관심이 없다고 가정합니다. 다중성이있는 경우 베이지안과 빈번한 간격이 분기됩니다 (베이지안 후 확률은 순방향 예측 모드에 있으며 "우리가 어떻게 도착했는지"를 고려할 필요가 없으므로 여러 모양을 조정할 필요가 없습니다). 게다가,
우도 함수 및 관련 신뢰 구간 은 균일 분포를 지정하는 사전으로 구성된 베이지안 후 확률과 동일 하지 않습니다 (개념).
이 답변의 1 부와 2 부에서 왜 우위가 평평한 사전을 기반으로 베이지안 후 확률로 보지 말아야하는지에 대한 논란이있다.
3 부에서는 신뢰 구간과 신뢰할 수있는 구간이 광범위하게 변하는 예가 제공됩니다. 또한 이러한 불일치가 어떻게 발생하는지 지적됩니다.
확률은 특정 방식으로 변형됩니다 . 확률 분포 분포 를 알면 변환 규칙에 따라 모든 함수 x = χ ( ξ )로 정의 된 변수 ξ에 대한 의 분포도 알 수 있습니다 .
변수를 변환하면 분포 함수가 변경되어 평균과 모드가 달라질 수 있습니다. 이는 및 합니다.
우도 함수는 이런 식으로 변형 되지 않습니다 . 이것은 우도 함수와 사후 확률 의 대비 입니다. 변수를 변환 할 때 (최대) 우도 함수 는 동일하게 유지 됩니다.
관련 :
평평한 사전은 모호합니다 . 특정 통계의 형식에 따라 다릅니다.
예를 들어, 가 균일 분포 (예 : 이면 는 균일 분포 변수 가 아닙니다 .
우도 함수를 연관시킬 수있는 단일 플랫 은 없습니다 . 또는 와 같은 변환 된 변수에 대해 플랫 사전을 정의하면 다릅니다 . 가능성으로 인해이 종속성이 존재 하지 않습니다 .
변수를 변환 할 때 확률의 경계 (신뢰성 간격)가 달라집니다 (가능성 함수의 경우에는 그렇지 않습니다) . 예를 들어 일부 매개 변수 와 단조 변환 (예 : 로그)의 경우 등가 구간
a min < a < a max f ( a min ) < f ( a ) < f ( a max )
당신이 변수 샘플 가정 (알 수 없음)으로 인구에서를 매개 변수 하는 자체 (인구 매개 변수 ) (을 위해 가능한 다양한 값으로 슈퍼 인구에서 샘플링 ).
변수 대한 일부 값 를 관찰 하여 원래의 가 무엇을 기반으로 했는지 추론하려고 역문을 만들 수 있습니다 .
신뢰 구간은 신뢰할 수있는 구간과 마찬가지로 이전 정보를 사용 하지 않습니다 (자신감은 확률이 아님).
신뢰할 수있는 간격의 경우이 개념 (
경계는 (1 차원) 누적 분포 함수를 얻습니다. 그러나이 통합 / 누적 은 두 가지 방향으로 수행 될 수 있습니다 .
간격의 차이는 5 % 영역이 다른 방식으로 만들어지기 때문에 발생합니다.
신뢰 구간과 신뢰할 수있는 구간 (부적절한 이전 기준)이 일치하는 경우 가우시안 분산 변수의 평균을 추정하기위한 것입니다 (분포는 https://stats.stackexchange.com/a/351333/164061 ).
신뢰 구간과 신뢰할 수있는 구간이 일치하지 않는 명백한 사례가 여기에 설명되어 있습니다 ( https://stats.stackexchange.com/a/369909/164061 ). 이 경우의 신뢰 구간은 무한대에서 (상 / 하) 경계 중 하나 또는 둘 다를 가질 수 있습니다.
내 독서에서, 나는이 진술이 무증상으로, 즉 큰 표본 크기에 대해, 그리고 정보가없는 이전의 것을 사용한다면 사실이라고 생각했습니다.
간단한 수치 적 예는 이것을 확인하는 것처럼 보일 것입니다. ML 이항 GLM과 베이지안 이항 GLM의 90 % 프로파일 최대 우도 간격과 90 % 신뢰할 수있는 간격은 실제로 거의 동일 n=1000
하지만 불일치가 작을수록 n
:
# simulate some data
set.seed(123)
n = 1000 # sample size
x1 = rnorm(n) # two continuous covariates
x2 = rnorm(n)
z = 0.1 + 2*x1 + 3*x2 # predicted values on logit scale
y = rbinom(n,1,plogis(z)) # bernoulli response variable
d = data.frame(y=y, x1=x1, x2=x2)
# fit a regular GLM and calculate 90% confidence intervals
glmfit = glm(y ~ x1 + x2, family = "binomial", data = d)
library(MASS)
# coefficients and 90% profile confidence intervals :
round(cbind(coef(glmfit), confint(glmfit, level=0.9)), 2)
# 5 % 95 %
# (Intercept) 0.00 -0.18 0.17
# x1 2.04 1.77 2.34
# x2 3.42 3.05 3.81
# fit a Bayesian GLM using rstanarm
library(rstanarm)
t_prior = student_t(df = 3, location = 0, scale = 100) # we set scale to large value to specify an uninformative prior
bfit1 = stan_glm(y ~ x1 + x2, data = d,
family = binomial(link = "logit"),
prior = t_prior, prior_intercept = t_prior,
chains = 1, cores = 4, seed = 123, iter = 10000)
# coefficients and 90% credible intervals :
round(cbind(coef(bfit1), posterior_interval(bfit1, prob = 0.9)), 2)
# 5% 95%
# (Intercept) -0.01 -0.18 0.17
# x1 2.06 1.79 2.37
# x2 3.45 3.07 3.85
# fit a Bayesian GLM using brms
library(brms)
priors = c(
prior(student_t(3, 0, 100), class = "Intercept"),
prior(student_t(3, 0, 100), class = "b")
)
bfit2 = brm(
y ~ x1 + x2,
data = d,
prior = priors,
family = "bernoulli",
seed = 123
)
# coefficients and 90% credible intervals :
summary(bfit2, prob=0.9)
# Population-Level Effects:
# Estimate Est.Error l-90% CI u-90% CI Eff.Sample Rhat
# Intercept -0.01 0.11 -0.18 0.18 2595 1.00
# x1 2.06 0.17 1.79 2.35 2492 1.00
# x2 3.45 0.23 3.07 3.83 2594 1.00
# fit a Bayesian GLM using arm
library(arm)
# we set prior.scale to Inf to specify an uninformative prior
bfit3 = bayesglm(y ~ x1 + x2, family = "binomial", data = d, prior.scale = Inf)
sims = coef(sim(bfit3, n.sims=1000000))
# coefficients and 90% credible intervals :
round(cbind(coef(bfit3), t(apply(sims, 2, function (col) quantile(col,c(.05, .95))))),2)
# 5% 95%
# (Intercept) 0.00 -0.18 0.17
# x1 2.04 1.76 2.33
# x2 3.42 3.03 3.80
보시다시피, 위의 예 n=1000
에서 이항 GLM의 90 % 프로파일 신뢰 구간은 베이지안 이항 GLM의 90 % 신뢰할 수있는 구간과 사실상 동일합니다 (차이는 다른 시드를 사용하는 범위 내에서 다름) 베이지안 피팅에서 nrs의 반복 횟수 및 100 % 정보없는 사전을 지정하는 것도 rstanarm
또는로 수행 할 수 없으므로 정확한 동등성을 얻을 수 없습니다 brms
.