플롯 해석 (glm.model)


30

누구나 '잔여 vs 적합', '정상 q-q', 'scale-location'및 '잔여 vs 레버리지'플롯을 해석하는 방법을 말해 줄 수 있습니까? 이항 GLM을 피팅하고 저장 한 다음 플로팅합니다.


4
규칙적인 선형 회귀를 다룰 때 이러한 플롯을 해석하는 방법을 알고 있습니까? 그것이 시작점이되어야하기 때문입니다.
Steve S

답변:


55

R고유 한 plot.glm()방법 이 없습니다 . 를 사용 glm()하여 실행 하고 모델을 실행 plot()하면 ? plot.lm 이 호출 되며 선형 모델에 적합합니다 (즉, 일반적으로 분포 된 오류 항이있는 경우).

일반적으로 이러한 도표의 의미 (적어도 선형 모델의 경우)는 CV의 다양한 기존 스레드에서 학습 할 수 있습니다 (예 : 잔차 대 적합 , 여러 위치의 qq- 플로트 : 1 , 2 , 3 ; 스케일 위치 ; 잔차) vs 레버리지 ). 그러나 문제의 모형이 로지스틱 회귀 분석 인 경우 이러한 해석은 일반적으로 유효하지 않습니다.

더 구체적으로 말하면, 음모는 종종 '재미있게 보입니다'. 사람들은 모델이 완벽하게 괜찮을 때 모델에 문제가 있다고 믿게합니다. 모델이 올바른지 알 수있는 몇 가지 간단한 시뮬레이션으로 플롯을 살펴보면이 사실을 알 수 있습니다.

  # we'll need this function to generate the Y data:
lo2p = function(lo){ exp(lo)/(1+exp(lo)) }

set.seed(10)                    # this makes the simulation exactly reproducible
x  = runif(20, min=0, max=10)   # the X data are uniformly distributed from 0 to 10
lo = -3 + .7*x                  # this is the true data generating process
p  = lo2p(lo)                   # here I convert the log odds to probabilities
y  = rbinom(20, size=1, prob=p) # this generates the Y data

mod = glm(y~x, family=binomial) # here I fit the model
summary(mod)                    # the model captures the DGP very well & has no
# ...                           #  obvious problems:
# Deviance Residuals: 
#      Min        1Q    Median        3Q       Max  
# -1.76225  -0.85236  -0.05011   0.83786   1.59393  
# 
# Coefficients:
#             Estimate Std. Error z value Pr(>|z|)  
# (Intercept)  -2.7370     1.4062  -1.946   0.0516 .
# x             0.6799     0.3261   2.085   0.0371 *
# ...
# 
# Null deviance: 27.726  on 19  degrees of freedom
# Residual deviance: 21.236  on 18  degrees of freedom
# AIC: 25.236
# 
# Number of Fisher Scoring iterations: 4

이제 우리가 얻는 플롯을 살펴 보겠습니다 plot.lm().

여기에 이미지 설명을 입력하십시오

Residuals vs FittedScale-Location플롯 모두 모델에 문제가있는 것처럼 보이지만, 아무 것도 없다는 것을 알고 있습니다. 선형 모형을위한이 그림은 로지스틱 회귀 모형과 함께 사용하는 경우 종종 오해의 소지가 있습니다.

다른 예를 보자.

set.seed(10)
x2 = rep(c(1:4), each=40)                    # X is a factor with 4 levels
lo = -3 + .7*x2
p  = lo2p(lo)
y  = rbinom(160, size=1, prob=p)

mod = glm(y~as.factor(x2), family=binomial)
summary(mod)                                 # again, everything looks good:
# ...
# Deviance Residuals: 
#   Min       1Q   Median       3Q      Max  
# -1.0108  -0.8446  -0.3949  -0.2250   2.7162  
# 
# Coefficients:
#                Estimate Std. Error z value Pr(>|z|)    
# (Intercept)      -3.664      1.013  -3.618 0.000297 ***
# as.factor(x2)2    1.151      1.177   0.978 0.328125    
# as.factor(x2)3    2.816      1.070   2.632 0.008481 ** 
# as.factor(x2)4    3.258      1.063   3.065 0.002175 ** 
# ... 
# 
# Null deviance: 160.13  on 159  degrees of freedom
# Residual deviance: 133.37  on 156  degrees of freedom
# AIC: 141.37
# 
# Number of Fisher Scoring iterations: 6

여기에 이미지 설명을 입력하십시오

이제 모든 음모가 이상하게 보입니다.

이 도표는 무엇을 보여줍니까?

  • Residuals vs Fitted당신이 놓친 곡선 경향이있는 경우 플롯은, 예를 들어, 당신이 볼 수 있습니다. 그러나 로지스틱 회귀 분석의 적합은 본질적으로 곡선 형이므로, 잔차에 이상한 경향이있을 수 있습니다.
  • Normal Q-Q그림은 잔차가 정규 분포인지 여부를 감지하는 데 도움이됩니다. 그러나 이탈 잔차는 모형이 유효하기 위해 정규 분포를 따로 분배 할 필요가 없으므로 잔차의 정규 / 비정규가 반드시 아무 것도 알려주지 않습니다.
  • Scale-Location그림은 이분산성을 식별하는 데 도움이됩니다. 그러나 로지스틱 회귀 모델은 본질적으로 이분법 적입니다.
  • Residuals vs Leverage당신이 가능한 아웃 라이어를 식별 할 수 있습니다. 그러나 로지스틱 회귀 분석의 특이 치가 선형 회귀 분석과 동일한 방식으로 반드시 나타나는 것은 아니므로이 그림이이를 식별하는 데 도움이되거나 도움이되지 않을 수 있습니다.

여기서 간단한 교훈을 얻으려면 로지스틱 회귀 모델로 무슨 일이 일어나고 있는지 이해하는 데이 그림을 사용하기가 매우 어려울 수 있습니다. 로지스틱 회귀 분석을 실행할 때 상당한 전문 지식이 없으면 사람들이이 플롯을 전혀 보지 않는 것이 가장 좋습니다.


5
좋은 슬픔은 놀라운 반응입니다.
d8aninja 2

@ gung glm이라면 무엇을 할 수 있는지 말씀해 주시겠습니까? QQ, Residual vs Fitted에 대한 대안이 있습니까? 예를 들어, 포아송 링크 GLM을 플로팅했지만 그것이 적합한 지 분석하는 방법을 모르겠습니다
GRS

2
@GRS, 이것을 읽어보십시오 .
gung-모니 티 복원

@ 모든 답변은 상세하고 명확합니다. 이 사이트를 포함하여 여러 출처에서 읽은 것 외에도 진단 책을 이해하는 데있어 '상당한 전문 지식'을 얻기 위해 하나 또는 두 개의 좋은 책 / 사이트를 참조 할 수 있습니까? 연습과 경험을 통해서만 얻을 수있는 기술은 거의 없지만, 참고할 수있는 세부 정보를 다루는 특정 책 / ​​웹 사이트가 있다면 큰 도움이 될 것입니다.
Nisha Arora 박사

@DrNishaArora, 내가 정말로 알고있는 것은 아닙니다. 있습니다 어떤 책 LR에 대한 관련,하지만 그들은 언급 한 이유로, 이러한 플롯에 많은 시간을 할애하지 않을 수 있습니다.
gung-Monica Monica 복원

0
  1. 잔차 대 적합-강한 패턴이 없어야합니다 (가벼운 패턴은 문제가되지 않습니다. @gung의 답변 참조).
  2. 정규 QQ-잔차가 대각선을 따라 이동해야합니다. 즉, 정규 분포를 따라야합니다 ( QQ 플롯에 대한 위키 참조 ). 이 도표는 대략 정상인지 확인하는 데 도움이됩니다.
  3. 스케일 위치-보시다시피 Y 축에는 잔차 (잔차 대 적합 그림과 같이)도 있지만 크기가 조정되므로 (1)과 비슷하지만 경우에 따라 더 잘 작동합니다.
  4. 잔차 대 레버리지-외부 사례를 진단하는 데 도움이됩니다. 이전 그림에서와 같이 외부 사례는 번호가 매겨 지지만 나머지 데이터 매우 다른 사례가있는 경우이 그림 에서 얇은 빨간색 선 아래에 표시됩니다 ( Cook의 거리에서 위키 확인 ).

(예를 들어, 유사가 여러 측면에서와 같이 회귀의 가정에 더 읽기 여기에 R의 회귀에, 또는 자습서 여기 ).


2
이 응답은 위의 응답에서 glm의 맥락에서 @gung에 의해 잘못 설명되어 있습니다. 이 질문에 대한 답을 찾고 있다면이 응답을 무시하십시오. 이 답변의 작성자 인 경우 gung으로 위의 답변을 확인하십시오. 동의하면 오해의 소지가 있으므로이 응답을 삭제하는 것이 좋습니다.
colin

@colin이 답변에 대한 귀하의 의견에 정확히 무엇이 잘못 되었습니까? 내 대답과 두 번째 대답의 유일한 차이점은 gung이 더 자세히 설명한다는 것입니다.
Tim

3
선형 회귀와 관련하여 이러한 도표를 사용하는 방법을 설명합니다. gung은이 해석이 이항 glm 모델에 적용되기 때문에이 해석이 실패하는 이유를 설명합니다. 따라서 사용자가 제안한대로 이러한 진단 플롯을 해석하면 (그리고 제안이 작품의 경우 도움이 될 것입니다) 실제로 모델이 glm의 가정을 위반한다고 잘못 판단 할 것입니다.
colin

"잔여 대 적합-패턴이없고 특이 치가 없어야하며 잔차는 0 주위에 무작위로 분포해야합니다." gung은 다음과 같이 말합니다. "예를 들어 놓친 곡선 추세가있는 경우 잔차 대 적합치 그림을 보면 도움이 될 수 있습니다. 그러나 로지스틱 회귀 분석의 적합도는 곡선 형이므로 잔차에 이상한 추세가있을 수 있습니다. 부인. " ... 당신 중 하나는 틀렸어 야합니다.
colin

2
나는 이것이 흑백이 아니지만 동의하는 경향이 많은 경우가 많지만 특정 모델의 가정하에 지정된 모델이 완전히 적합하다는 데 동의합니다. 따라서 "패턴과 이상 값이 없어야하며 잔차는 0 주위에 무작위로 분포해야합니다." 패턴이있는 경우 모델 가정을 위반 한 것으로 쉽게 해석됩니다. 그렇지 않다.
colin
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.