로지스틱 회귀 분석의 Pearson VS 편차 잔차

16

표준화 된 Pearson 잔차는 전통적인 확률 론적 방식으로 얻어진다는 것을 알고 있습니다.

r_{i} = \frac{y_{i} - π_{i}}{\sqrt{π_{i} (1 - π_{i})}}

$r_i = \frac{y_i-\pi_i}{\sqrt{\pi_i(1-\pi_i)}}$

이탈 잔차는보다 통계적인 방법 (각 지점의 가능성에 대한 기여도)을 통해 얻습니다.

d_{i} = s_{i} \sqrt{- 2 [y_{i} \log \hat{π_{i}} + (1 - y_{i}) \log (1 - π_{i})]}

$d_i = s_i \sqrt{-2[y_i \log \hat{\pi_i} + (1 - y_i)\log(1-\pi_i)]}$

여기서, 경우 (1) = = 1과 = -1 경우 = 0. $s_i$ $y_i$ $s_i$ $y_i$

이탈 잔차에 대한 공식을 해석하는 방법을 직관적으로 설명해 주시겠습니까?

또한 하나를 선택하려면 어느 것이 더 적합하고 왜 선택해야합니까?

BTW, 일부 참고 문헌은 용어에 따라 이탈 잔차를 도출한다고 주장합니다.

- \frac{1}{2} {r_{i}}^{2}

$-\frac{1}{2}{r_i}^2$

$r_i$

— 잭시
소스

모든 생각을

— Jack Shi

1

"일부 참조"라고 말할 때 ... 어떤 참조가 어떻게됩니까?

— Glen_b-복지 주 모니카

10

로지스틱 회귀 분석은 로그 우도 함수를 최대화하려고합니다.

$LL = \sum^k \ln(P_i) + \sum^r \ln(1-P_i)$

$P_i$ $\hat Y=1$ $k$ $Y=1$ $r$ $Y=0$

그 표현은

$LL = ({\sum^k d_i^2} + {\sum^r d_i^2})/-2$

사례의 이탈 잔차 는 다음과 같이 정의되기 때문입니다.

$d_i = \begin{cases} \sqrt{-2\ln(P_i)} &\text{if } Y_i=1\\ -\sqrt{-2\ln(1-P_i)} &\text{if } Y_i=0\\ \end{cases}$

따라서 이항 로지스틱 회귀 분석은 제곱 이탈 잔차의 합을 최소화하기 위해 직접 찾습니다. 회귀의 ML 알고리즘에 내재 된 이탈 잔차입니다.

$2(LL_\text{full model} - LL_\text{reduced model})$

— ttnphns
소스

2

이 질문에 대한 답변으로 som R 코드를 추가하여 이탈 잔차 계산을 위해 공식을 수동으로 적용하는 방법을 보여줍니다.

코드의 모델은 로짓 모델입니다.

p_{i} := P r (Y_{i} = 1) = \frac{\exp (b_{0} + b_{1} x_{i})}{1 + \exp (b_{0} + b_{1} x_{i})} .

$p_i := Pr(Y_i = 1) = \frac{\exp(b_0 + b_1x_i)}{1+\exp(b_0 + b_1x_i)}.$

$v_i := b_0 + b_1x_i$

p_{i} := P r (Y_{i} = 1) = \frac{\exp (v_{i})}{1 + \exp (v_{i})} .

$p_i := Pr(Y_i = 1) = \frac{\exp(v_i)}{1+\exp(v_i)}.$

$\hat b_0$ $\hat b_1$

{\hat{v}}_{i} := {\hat{b}}_{0} + {\hat{b}}_{1} x_{i},

$\hat v_i := \hat b_0 + \hat b_1 x_i,$

계산 된 다음 예상 확률이 계산됩니다.

{\hat{p}}_{i} = \frac{\exp ({\hat{v}}_{i})}{1 + \exp ({\hat{v}}_{i})} .

$\hat p_i =\frac{\exp(\hat v_i )}{1+\exp(\hat v_i )}.$

이러한 예측 확률을 사용하여 편차 잔차에 대한 공식이 코딩 단계에 적용됩니다.

sign(y-pred_p) * ifelse(y==1,sqrt(-2*log(pred_p)),sqrt(-2*log(1-pred_p)))

이것은 단순히 공식의 적용입니다

$d_i = \begin{cases} \sqrt{-2\ln(\hat p_i)} &\text{if } Y_i=1\\ -\sqrt{-2\ln(1-\hat p_i)} &\text{if } Y_i=0\\ \end{cases}$

# Simulate some data
N <- 1000
b0 <- 0.5
b1 <- 1
x <- rnorm(N)
v <- b0 + b1*x
p <- exp(v)/(1+exp(v))
y <- as.numeric(runif(N)<p)

# Estimate model
model <- glm(y~x,family=binomial)
summary_model <- summary(model)
summary_dev_res <- summary_model$deviance.resid
# This is the output you get:
quantile(summary_dev_res)


# Calculate manually deviance residuals
# First calculate predicted v's
pred_v <- coef(model)[1] + coef(model)[2]*x
# The calculate predicted probabilities
pred_p <- exp(pred_v)/(1+exp(pred_v))
# Apply formula for deviance residuals
dev_res <- sign(y-pred_p) * ifelse(y==1,sqrt(-2*log(pred_p)),sqrt(-2*log(1-pred_p)))
# Check that it is the same as deviance residuals returned from summary
plot(summary_dev_res,dev_res)
points(seq(-3,3,length.out=100),seq(-3,3,length.out=100),type="l",col="red",lwd=2)
# all points should be on the red line 


# Also compare the quantiles ... 
quantile(summary_dev_res)
quantile(dev_res)

— 빠른 질문 마감
소스