플롯 해석 (glm.model)

누구나 '잔여 vs 적합', '정상 q-q', 'scale-location'및 '잔여 vs 레버리지'플롯을 해석하는 방법을 말해 줄 수 있습니까? 이항 GLM을 피팅하고 저장 한 다음 플로팅합니다.

— 여름
소스

규칙적인 선형 회귀를 다룰 때 이러한 플롯을 해석하는 방법을 알고 있습니까? 그것이 시작점이되어야하기 때문입니다.

— Steve S

답변:

R고유 한 plot.glm()방법 이 없습니다 . 를 사용 glm()하여 실행 하고 모델을 실행 plot()하면 ? plot.lm 이 호출 되며 선형 모델에 적합합니다 (즉, 일반적으로 분포 된 오류 항이있는 경우).

일반적으로 이러한 도표의 의미 (적어도 선형 모델의 경우)는 CV의 다양한 기존 스레드에서 학습 할 수 있습니다 (예 : 잔차 대 적합 , 여러 위치의 qq- 플로트 : 1 , 2 , 3 ; 스케일 위치 ; 잔차) vs 레버리지 ). 그러나 문제의 모형이 로지스틱 회귀 분석 인 경우 이러한 해석은 일반적으로 유효하지 않습니다.

더 구체적으로 말하면, 음모는 종종 '재미있게 보입니다'. 사람들은 모델이 완벽하게 괜찮을 때 모델에 문제가 있다고 믿게합니다. 모델이 올바른지 알 수있는 몇 가지 간단한 시뮬레이션으로 플롯을 살펴보면이 사실을 알 수 있습니다.

  # we'll need this function to generate the Y data:
lo2p = function(lo){ exp(lo)/(1+exp(lo)) }

set.seed(10)                    # this makes the simulation exactly reproducible
x  = runif(20, min=0, max=10)   # the X data are uniformly distributed from 0 to 10
lo = -3 + .7*x                  # this is the true data generating process
p  = lo2p(lo)                   # here I convert the log odds to probabilities
y  = rbinom(20, size=1, prob=p) # this generates the Y data

mod = glm(y~x, family=binomial) # here I fit the model
summary(mod)                    # the model captures the DGP very well & has no
# ...                           #  obvious problems:
# Deviance Residuals: 
#      Min        1Q    Median        3Q       Max  
# -1.76225  -0.85236  -0.05011   0.83786   1.59393  
# 
# Coefficients:
#             Estimate Std. Error z value Pr(>|z|)  
# (Intercept)  -2.7370     1.4062  -1.946   0.0516 .
# x             0.6799     0.3261   2.085   0.0371 *
# ...
# 
# Null deviance: 27.726  on 19  degrees of freedom
# Residual deviance: 21.236  on 18  degrees of freedom
# AIC: 25.236
# 
# Number of Fisher Scoring iterations: 4

이제 우리가 얻는 플롯을 살펴 보겠습니다 plot.lm().

여기에 이미지 설명을 입력하십시오

Residuals vs Fitted와 Scale-Location플롯 모두 모델에 문제가있는 것처럼 보이지만, 아무 것도 없다는 것을 알고 있습니다. 선형 모형을위한이 그림은 로지스틱 회귀 모형과 함께 사용하는 경우 종종 오해의 소지가 있습니다.

다른 예를 보자.

set.seed(10)
x2 = rep(c(1:4), each=40)                    # X is a factor with 4 levels
lo = -3 + .7*x2
p  = lo2p(lo)
y  = rbinom(160, size=1, prob=p)

mod = glm(y~as.factor(x2), family=binomial)
summary(mod)                                 # again, everything looks good:
# ...
# Deviance Residuals: 
#   Min       1Q   Median       3Q      Max  
# -1.0108  -0.8446  -0.3949  -0.2250   2.7162  
# 
# Coefficients:
#                Estimate Std. Error z value Pr(>|z|)    
# (Intercept)      -3.664      1.013  -3.618 0.000297 ***
# as.factor(x2)2    1.151      1.177   0.978 0.328125    
# as.factor(x2)3    2.816      1.070   2.632 0.008481 ** 
# as.factor(x2)4    3.258      1.063   3.065 0.002175 ** 
# ... 
# 
# Null deviance: 160.13  on 159  degrees of freedom
# Residual deviance: 133.37  on 156  degrees of freedom
# AIC: 141.37
# 
# Number of Fisher Scoring iterations: 6

여기에 이미지 설명을 입력하십시오

이제 모든 음모가 이상하게 보입니다.

이 도표는 무엇을 보여줍니까?

Residuals vs Fitted당신이 놓친 곡선 경향이있는 경우 플롯은, 예를 들어, 당신이 볼 수 있습니다. 그러나 로지스틱 회귀 분석의 적합은 본질적으로 곡선 형이므로, 잔차에 이상한 경향이있을 수 있습니다.
이 Normal Q-Q그림은 잔차가 정규 분포인지 여부를 감지하는 데 도움이됩니다. 그러나 이탈 잔차는 모형이 유효하기 위해 정규 분포를 따로 분배 할 필요가 없으므로 잔차의 정규 / 비정규가 반드시 아무 것도 알려주지 않습니다.
이 Scale-Location그림은 이분산성을 식별하는 데 도움이됩니다. 그러나 로지스틱 회귀 모델은 본질적으로 이분법 적입니다.
는 Residuals vs Leverage당신이 가능한 아웃 라이어를 식별 할 수 있습니다. 그러나 로지스틱 회귀 분석의 특이 치가 선형 회귀 분석과 동일한 방식으로 반드시 나타나는 것은 아니므로이 그림이이를 식별하는 데 도움이되거나 도움이되지 않을 수 있습니다.

여기서 간단한 교훈을 얻으려면 로지스틱 회귀 모델로 무슨 일이 일어나고 있는지 이해하는 데이 그림을 사용하기가 매우 어려울 수 있습니다. 로지스틱 회귀 분석을 실행할 때 상당한 전문 지식이 없으면 사람들이이 플롯을 전혀 보지 않는 것이 가장 좋습니다.

— gung-복직 모니카
소스

좋은 슬픔은 놀라운 반응입니다.

— d8aninja 2

@ gung glm이라면 무엇을 할 수 있는지 말씀해 주시겠습니까? QQ, Residual vs Fitted에 대한 대안이 있습니까? 예를 들어, 포아송 링크 GLM을 플로팅했지만 그것이 적합한 지 분석하는 방법을 모르겠습니다

— GRS

@GRS, 이것을 읽어보십시오 .

— gung-모니 티 복원

@ 모든 답변은 상세하고 명확합니다. 이 사이트를 포함하여 여러 출처에서 읽은 것 외에도 진단 책을 이해하는 데있어 '상당한 전문 지식'을 얻기 위해 하나 또는 두 개의 좋은 책 / 사이트를 참조 할 수 있습니까? 연습과 경험을 통해서만 얻을 수있는 기술은 거의 없지만, 참고할 수있는 세부 정보를 다루는 특정 책 / 웹 사이트가 있다면 큰 도움이 될 것입니다.

— Nisha Arora 박사

@DrNishaArora, 내가 정말로 알고있는 것은 아닙니다. 있습니다 어떤 책 LR에 대한 관련,하지만 그들은 언급 한 이유로, 이러한 플롯에 많은 시간을 할애하지 않을 수 있습니다.

— gung-Monica Monica 복원

잔차 대 적합-강한 패턴이 없어야합니다 (가벼운 패턴은 문제가되지 않습니다. @gung의 답변 참조).
정규 QQ-잔차가 대각선을 따라 이동해야합니다. 즉, 정규 분포를 따라야합니다 ( QQ 플롯에 대한 위키 참조 ). 이 도표는 대략 정상인지 확인하는 데 도움이됩니다.
스케일 위치-보시다시피 Y 축에는 잔차 (잔차 대 적합 그림과 같이)도 있지만 크기가 조정되므로 (1)과 비슷하지만 경우에 따라 더 잘 작동합니다.
잔차 대 레버리지-외부 사례를 진단하는 데 도움이됩니다. 이전 그림에서와 같이 외부 사례는 번호가 매겨 지지만 나머지 데이터 와 는 매우 다른 사례가있는 경우이 그림 에서 얇은 빨간색 선 아래에 표시됩니다 ( Cook의 거리에서 위키 확인 ).

(예를 들어, 유사가 여러 측면에서와 같이 회귀의 가정에 더 읽기 여기에 R의 회귀에, 또는 자습서 여기 ).

— 팀
소스

이 응답은 위의 응답에서 glm의 맥락에서 @gung에 의해 잘못 설명되어 있습니다. 이 질문에 대한 답을 찾고 있다면이 응답을 무시하십시오. 이 답변의 작성자 인 경우 gung으로 위의 답변을 확인하십시오. 동의하면 오해의 소지가 있으므로이 응답을 삭제하는 것이 좋습니다.

— colin

@colin이 답변에 대한 귀하의 의견에 정확히 무엇이 잘못 되었습니까? 내 대답과 두 번째 대답의 유일한 차이점은 gung이 더 자세히 설명한다는 것입니다.

— Tim

선형 회귀와 관련하여 이러한 도표를 사용하는 방법을 설명합니다. gung은이 해석이 이항 glm 모델에 적용되기 때문에이 해석이 실패하는 이유를 설명합니다. 따라서 사용자가 제안한대로 이러한 진단 플롯을 해석하면 (그리고 제안이 작품의 경우 도움이 될 것입니다) 실제로 모델이 glm의 가정을 위반한다고 잘못 판단 할 것입니다.

— colin

"잔여 대 적합-패턴이없고 특이 치가 없어야하며 잔차는 0 주위에 무작위로 분포해야합니다." gung은 다음과 같이 말합니다. "예를 들어 놓친 곡선 추세가있는 경우 잔차 대 적합치 그림을 보면 도움이 될 수 있습니다. 그러나 로지스틱 회귀 분석의 적합도는 곡선 형이므로 잔차에 이상한 추세가있을 수 있습니다. 부인. " ... 당신 중 하나는 틀렸어 야합니다.

— colin

나는 이것이 흑백이 아니지만 동의하는 경향이 많은 경우가 많지만 특정 모델의 가정하에 지정된 모델이 완전히 적합하다는 데 동의합니다. 따라서 "패턴과 이상 값이 없어야하며 잔차는 0 주위에 무작위로 분포해야합니다." 패턴이있는 경우 모델 가정을 위반 한 것으로 쉽게 해석됩니다. 그렇지 않다.

— colin