답변:
R
고유 한 plot.glm()
방법 이 없습니다 . 를 사용 glm()
하여 실행 하고 모델을 실행 plot()
하면 ? plot.lm 이 호출 되며 선형 모델에 적합합니다 (즉, 일반적으로 분포 된 오류 항이있는 경우).
일반적으로 이러한 도표의 의미 (적어도 선형 모델의 경우)는 CV의 다양한 기존 스레드에서 학습 할 수 있습니다 (예 : 잔차 대 적합 , 여러 위치의 qq- 플로트 : 1 , 2 , 3 ; 스케일 위치 ; 잔차) vs 레버리지 ). 그러나 문제의 모형이 로지스틱 회귀 분석 인 경우 이러한 해석은 일반적으로 유효하지 않습니다.
더 구체적으로 말하면, 음모는 종종 '재미있게 보입니다'. 사람들은 모델이 완벽하게 괜찮을 때 모델에 문제가 있다고 믿게합니다. 모델이 올바른지 알 수있는 몇 가지 간단한 시뮬레이션으로 플롯을 살펴보면이 사실을 알 수 있습니다.
# we'll need this function to generate the Y data:
lo2p = function(lo){ exp(lo)/(1+exp(lo)) }
set.seed(10) # this makes the simulation exactly reproducible
x = runif(20, min=0, max=10) # the X data are uniformly distributed from 0 to 10
lo = -3 + .7*x # this is the true data generating process
p = lo2p(lo) # here I convert the log odds to probabilities
y = rbinom(20, size=1, prob=p) # this generates the Y data
mod = glm(y~x, family=binomial) # here I fit the model
summary(mod) # the model captures the DGP very well & has no
# ... # obvious problems:
# Deviance Residuals:
# Min 1Q Median 3Q Max
# -1.76225 -0.85236 -0.05011 0.83786 1.59393
#
# Coefficients:
# Estimate Std. Error z value Pr(>|z|)
# (Intercept) -2.7370 1.4062 -1.946 0.0516 .
# x 0.6799 0.3261 2.085 0.0371 *
# ...
#
# Null deviance: 27.726 on 19 degrees of freedom
# Residual deviance: 21.236 on 18 degrees of freedom
# AIC: 25.236
#
# Number of Fisher Scoring iterations: 4
이제 우리가 얻는 플롯을 살펴 보겠습니다 plot.lm()
.
Residuals vs Fitted
와 Scale-Location
플롯 모두 모델에 문제가있는 것처럼 보이지만, 아무 것도 없다는 것을 알고 있습니다. 선형 모형을위한이 그림은 로지스틱 회귀 모형과 함께 사용하는 경우 종종 오해의 소지가 있습니다.
다른 예를 보자.
set.seed(10)
x2 = rep(c(1:4), each=40) # X is a factor with 4 levels
lo = -3 + .7*x2
p = lo2p(lo)
y = rbinom(160, size=1, prob=p)
mod = glm(y~as.factor(x2), family=binomial)
summary(mod) # again, everything looks good:
# ...
# Deviance Residuals:
# Min 1Q Median 3Q Max
# -1.0108 -0.8446 -0.3949 -0.2250 2.7162
#
# Coefficients:
# Estimate Std. Error z value Pr(>|z|)
# (Intercept) -3.664 1.013 -3.618 0.000297 ***
# as.factor(x2)2 1.151 1.177 0.978 0.328125
# as.factor(x2)3 2.816 1.070 2.632 0.008481 **
# as.factor(x2)4 3.258 1.063 3.065 0.002175 **
# ...
#
# Null deviance: 160.13 on 159 degrees of freedom
# Residual deviance: 133.37 on 156 degrees of freedom
# AIC: 141.37
#
# Number of Fisher Scoring iterations: 6
이제 모든 음모가 이상하게 보입니다.
이 도표는 무엇을 보여줍니까?
Residuals vs Fitted
당신이 놓친 곡선 경향이있는 경우 플롯은, 예를 들어, 당신이 볼 수 있습니다. 그러나 로지스틱 회귀 분석의 적합은 본질적으로 곡선 형이므로, 잔차에 이상한 경향이있을 수 있습니다. Normal Q-Q
그림은 잔차가 정규 분포인지 여부를 감지하는 데 도움이됩니다. 그러나 이탈 잔차는 모형이 유효하기 위해 정규 분포를 따로 분배 할 필요가 없으므로 잔차의 정규 / 비정규가 반드시 아무 것도 알려주지 않습니다. Scale-Location
그림은 이분산성을 식별하는 데 도움이됩니다. 그러나 로지스틱 회귀 모델은 본질적으로 이분법 적입니다. Residuals vs Leverage
당신이 가능한 아웃 라이어를 식별 할 수 있습니다. 그러나 로지스틱 회귀 분석의 특이 치가 선형 회귀 분석과 동일한 방식으로 반드시 나타나는 것은 아니므로이 그림이이를 식별하는 데 도움이되거나 도움이되지 않을 수 있습니다. 여기서 간단한 교훈을 얻으려면 로지스틱 회귀 모델로 무슨 일이 일어나고 있는지 이해하는 데이 그림을 사용하기가 매우 어려울 수 있습니다. 로지스틱 회귀 분석을 실행할 때 상당한 전문 지식이 없으면 사람들이이 플롯을 전혀 보지 않는 것이 가장 좋습니다.
(예를 들어, 유사가 여러 측면에서와 같이 회귀의 가정에 더 읽기 여기에 R의 회귀에, 또는 자습서 여기 ).