답변:
R고유 한 plot.glm()방법 이 없습니다 . 를 사용 glm()하여 실행 하고 모델을 실행 plot()하면 ? plot.lm 이 호출 되며 선형 모델에 적합합니다 (즉, 일반적으로 분포 된 오류 항이있는 경우).
일반적으로 이러한 도표의 의미 (적어도 선형 모델의 경우)는 CV의 다양한 기존 스레드에서 학습 할 수 있습니다 (예 : 잔차 대 적합 , 여러 위치의 qq- 플로트 : 1 , 2 , 3 ; 스케일 위치 ; 잔차) vs 레버리지 ). 그러나 문제의 모형이 로지스틱 회귀 분석 인 경우 이러한 해석은 일반적으로 유효하지 않습니다.
더 구체적으로 말하면, 음모는 종종 '재미있게 보입니다'. 사람들은 모델이 완벽하게 괜찮을 때 모델에 문제가 있다고 믿게합니다. 모델이 올바른지 알 수있는 몇 가지 간단한 시뮬레이션으로 플롯을 살펴보면이 사실을 알 수 있습니다.
# we'll need this function to generate the Y data:
lo2p = function(lo){ exp(lo)/(1+exp(lo)) }
set.seed(10) # this makes the simulation exactly reproducible
x = runif(20, min=0, max=10) # the X data are uniformly distributed from 0 to 10
lo = -3 + .7*x # this is the true data generating process
p = lo2p(lo) # here I convert the log odds to probabilities
y = rbinom(20, size=1, prob=p) # this generates the Y data
mod = glm(y~x, family=binomial) # here I fit the model
summary(mod) # the model captures the DGP very well & has no
# ... # obvious problems:
# Deviance Residuals:
# Min 1Q Median 3Q Max
# -1.76225 -0.85236 -0.05011 0.83786 1.59393
#
# Coefficients:
# Estimate Std. Error z value Pr(>|z|)
# (Intercept) -2.7370 1.4062 -1.946 0.0516 .
# x 0.6799 0.3261 2.085 0.0371 *
# ...
#
# Null deviance: 27.726 on 19 degrees of freedom
# Residual deviance: 21.236 on 18 degrees of freedom
# AIC: 25.236
#
# Number of Fisher Scoring iterations: 4
이제 우리가 얻는 플롯을 살펴 보겠습니다 plot.lm().

Residuals vs Fitted와 Scale-Location플롯 모두 모델에 문제가있는 것처럼 보이지만, 아무 것도 없다는 것을 알고 있습니다. 선형 모형을위한이 그림은 로지스틱 회귀 모형과 함께 사용하는 경우 종종 오해의 소지가 있습니다.
다른 예를 보자.
set.seed(10)
x2 = rep(c(1:4), each=40) # X is a factor with 4 levels
lo = -3 + .7*x2
p = lo2p(lo)
y = rbinom(160, size=1, prob=p)
mod = glm(y~as.factor(x2), family=binomial)
summary(mod) # again, everything looks good:
# ...
# Deviance Residuals:
# Min 1Q Median 3Q Max
# -1.0108 -0.8446 -0.3949 -0.2250 2.7162
#
# Coefficients:
# Estimate Std. Error z value Pr(>|z|)
# (Intercept) -3.664 1.013 -3.618 0.000297 ***
# as.factor(x2)2 1.151 1.177 0.978 0.328125
# as.factor(x2)3 2.816 1.070 2.632 0.008481 **
# as.factor(x2)4 3.258 1.063 3.065 0.002175 **
# ...
#
# Null deviance: 160.13 on 159 degrees of freedom
# Residual deviance: 133.37 on 156 degrees of freedom
# AIC: 141.37
#
# Number of Fisher Scoring iterations: 6

이제 모든 음모가 이상하게 보입니다.
이 도표는 무엇을 보여줍니까?
Residuals vs Fitted당신이 놓친 곡선 경향이있는 경우 플롯은, 예를 들어, 당신이 볼 수 있습니다. 그러나 로지스틱 회귀 분석의 적합은 본질적으로 곡선 형이므로, 잔차에 이상한 경향이있을 수 있습니다. Normal Q-Q그림은 잔차가 정규 분포인지 여부를 감지하는 데 도움이됩니다. 그러나 이탈 잔차는 모형이 유효하기 위해 정규 분포를 따로 분배 할 필요가 없으므로 잔차의 정규 / 비정규가 반드시 아무 것도 알려주지 않습니다. Scale-Location그림은 이분산성을 식별하는 데 도움이됩니다. 그러나 로지스틱 회귀 모델은 본질적으로 이분법 적입니다. Residuals vs Leverage당신이 가능한 아웃 라이어를 식별 할 수 있습니다. 그러나 로지스틱 회귀 분석의 특이 치가 선형 회귀 분석과 동일한 방식으로 반드시 나타나는 것은 아니므로이 그림이이를 식별하는 데 도움이되거나 도움이되지 않을 수 있습니다. 여기서 간단한 교훈을 얻으려면 로지스틱 회귀 모델로 무슨 일이 일어나고 있는지 이해하는 데이 그림을 사용하기가 매우 어려울 수 있습니다. 로지스틱 회귀 분석을 실행할 때 상당한 전문 지식이 없으면 사람들이이 플롯을 전혀 보지 않는 것이 가장 좋습니다.
(예를 들어, 유사가 여러 측면에서와 같이 회귀의 가정에 더 읽기 여기에 R의 회귀에, 또는 자습서 여기 ).