이항 설정 하에서 미래의 성공 비율에 대한 예측 구간

이항 회귀 분석에 적합하고 회귀 계수의 점 추정치 및 분산 공분산 행렬을 구한다고 가정합니다. 이를 통해 향후 실험에서 예상되는 성공 비율의 CI를 얻을 수 있습니다. $p$ 그러나 관찰 된 비율에 대한 CI가 필요합니다. 시뮬레이션 (나는 그것을하고 싶지 않다고 가정)과 Krishnamoorthya et al (내 질문에 대답하지 않은)에 대한 링크를 포함하여 몇 가지 관련 답변이 게시되었습니다.

나의 추론은 다음과 같습니다 : 만약 우리가 이항 모형 만 사용한다면, 우리는 $p$ 는 정규 분포 (해당 Wald CI와 함께)에서 샘플링되므로 관측 된 비율의 CI를 닫힌 형태로 얻을 수 없습니다. 우리가 가정한다면 $p$ 베타 분포에서 샘플링 된 경우 성공 횟수가 베타-이노 미 분포를 따르기 때문에 훨씬 쉽습니다. 예상 베타 매개 변수에 불확실성이 없다고 가정해야합니다. $\alpha$ 과 $\beta$ .

세 가지 질문이 있습니다.

1) 이론적 인 것 : 베타 파라미터의 포인트 추정치 만 사용해도 괜찮습니까? 다중 선형 회귀 분석에서 향후 관측을 위해 CI를 구성한다는 것을 알고 있습니다.

$Y = x'\beta + \epsilon, \epsilon \sim N(0, \sigma^2)$

그것들은 오류 항 분산을 수행합니다. $\sigma^2$ . 나는 정당성이 정당하다는 것을 받아 들인다 (내가 틀렸다면 나를 교정하라) $\sigma^2$ 회귀 계수보다 훨씬 높은 정밀도로 추정되며 불확실성을 통합하여 많은 이익을 얻지 못합니다. $\sigma^2$ . 추정 된 베타 매개 변수에도 유사한 근거가 있습니까? $\alpha$ 과 $\beta$ ?

2) 어떤 패키지가 더 낫습니까 (R : gamlss-bb, betareg, aod ?; 또한 SAS에 액세스 할 수 있습니다).

3) 추정 된 베타 파라미터가 주어지면, 미래 성공 횟수 또는 베타-바이 노미 분포에 따른 미래 성공 비율에 대한 Quantile (2.5 %, 97.5 %)을 얻는 대략적인 지름길이 있습니까?

— 제임스
소스

질문 1에, 그렇습니다 이것은 사람들이하는 유효한 일입니다, 그것을 경험적 베이 즈라고합니다 : en.wikipedia.org/wiki/Empirical_Bayes_method

— Paul

모델 매개 변수를 추정하기 위해 방법 XYZ를 사용하면 향후 관측을 위해 CI를 생성 할 때 추정 불확실성을 무시해도된다는 것을 자동으로 암시 할 수 있다고 생각하지 않습니다. 예를 들어 다중 선형 회귀 분석에서 EB 대신 OLS를 사용하며

σ

$\sigma$ 마찬가지로 무시됩니다. 왜 그런 겁니까? 또한 Wiki 기사는 EB에서 최상위 하이퍼 파라미터의 추정 정밀도가 일반적으로 너무 높아 실제 목적을 위해 고정 된 것으로 간주해도 괜찮다고 제안하지 않습니다.

— James

“진정한 배포

p (η ∣ y)

$p(\eta \mid y)$ 급격한 정점

p (θ ∣ y)

$p(\theta \mid y)$ 확률 분포를 대체하여 크게 변경되지 않을 수 있습니다.

η

$\eta$ 포인트 추정치

η^{*}

$\eta^*$ 분포의 피크를 나타냅니다”. 귀하의 경우에 해당되는지 여부는 문제 도메인의 세부 사항에 따라 다릅니다.

— Paul

좋은 질문! 피벗을 얻을 수는 없지만 프로필 가능성을 사용하는 것은 어떻습니까? 예측 적 추론에 어떤 비 베이지안 방법이 있습니까?를 참조하십시오 . .

— Scortchi-Monica Monica 복원

나는이 세 부분을 모두 문제에 대해 다룰 것이다.

두 가지 문제가 있습니다. 먼저이 경우 회귀 모형을 맞추는 데 사용하는 방법입니다. 두 번째는 새로운 추정치를 예측하기 위해 추정치와 추정치를 간격을 두는 방법입니다.

반응 변수가 이항 분포로 분포 된 경우 일반적으로 로지스틱 회귀 또는 프로 빗 회귀 (일반 cdf를 링크 함수로 사용하는 glm)를 사용합니다.

로지스틱 회귀 분석을 수행하는 경우 관측 된 계수의 비율을 알려진 상한으로 나눈 값으로 응답합니다. $y_i/n_i$ . 그런 다음 예측 변수 / 공변량을 가져와 glm 함수에 대한 R 호출에 넣습니다. 반환 된 객체에는 나머지 계산에 필요한 모든 것이 있습니다.

x<- rnorm(100, sd=2)
prob_true <- 1/(1+exp(-(1+5*x)))
counts <- rbinom(100, 50,prob_true)
print(d.AD <- data.frame(counts,x))
glm.D93 <- glm(counts/50 ~ x, family = binomial() )

A에 대한 선형 예측 구간이기 회귀 식 모델 :

$\hat{y}_i \pm t_{n-p}s_y\sqrt{1+\frac{1}{n}+\frac{(x_i-\bar{x})^2}{(n-1)s^2_x}}$

선형 회귀 모형을 glm의 근사값으로 사용할 수 있습니다. 이렇게하려면 역 링크 변환을 수행 하기 전에 확률을 0-1 스케일로 되돌리기 전에 예측 변수의 선형 조합에 대한 선형 회귀 공식을 사용합니다 . 이를 수행하는 코드는 predict.glm () R 함수에 포함됩니다. 다음은 멋진 플롯을 만드는 예제 코드입니다. ( 편집 :이 코드는 예측 간격이 아닌 신뢰 구간을위한 것입니다)

y_hat <- predict(glm.D93, type="link", se.fit=TRUE)
t_np<- qt(.975, 100-2, ncp=0)

ub <- y_hat$fit + t_np * y_hat$se.fit
lb <- y_hat$fit - t_np * y_hat$se.fit

point <- y_hat$fit

p_hat <- glm.D93$family$linkinv(point)
p_hat_lb <- glm.D93$family$linkinv(lb)
p_hat_ub <- glm.D93$family$linkinv(ub)

plot(x,p_hat)
points(x, p_hat_ub, col='red')
points(x, p_hat_lb, col='blue')

포아송, 역 가우시안, 감마 등과 같은 모든 glm에 대해 동일한 작업을 수행 할 수 있습니다. 각 경우에 예측 변수의 선형 조합 스케일에서 예측 간격을 수행합니다. 예측 구간의 두 끝점을 얻은 후이 끝점을 역 링크를 통해 변환합니다. 내가 언급 한 각 glm에 대해 역 링크는 내가 작성한 로짓 사례와 다를 수 있습니다. 도움이 되었기를 바랍니다.

— 루카스 로버츠
소스