일반화 선형 모형에서 정규성 잔차 확인


12

이 논문 은 일반 선형 모델 (이항 및 음 이항 오차 분포)을 사용하여 데이터를 분석합니다. 그러나 방법의 통계 분석 섹션에는 다음과 같은 진술이 있습니다.

두 번째는 로지스틱 회귀 모델을 사용하여 현재 상태 데이터를 모델링하고 GLM (Generalized Linear Model)을 사용하여 시간을 계산하는 데이터입니다. 로그 링크 기능이있는 음의 이항 분포는 위조 시간 데이터를 모델링하는 데 사용되었으며 (Welsh et al. 1996), 레지 듀얼을 조사하여 모델의 적합성을 검증했습니다 (McCullagh & Nelder 1989). 샘플 크기에 따라 Shapiro–Wilk 또는 Kolmogorov–Smirnov 테스트를 사용하여 정규성을 테스트했습니다. 정규성을 고수하기 위해 분석하기 전에 데이터를 로그 변환 하였다.

이항 및 음의 이항 오차 분포를 가정하면 잔차의 정규성을 확인하지 않아야합니까?


2
있습니다 오류가 binomially 배포되지 않습니다는 - 각 응답은 binomially 답변에 따라에 해당 예측 값에 의해 주어진 확률 매개 변수와 함께 배포되는 다른 질문 중 하나 .
Scortchi-Monica Monica 복원

3
이항 또는 음의 이항 회귀에는 정상일 필요가 없습니다. 그것이 그들이 반응하는 반응이라면, 그것은 비생산적 일 수있다. 그것은 GLM을 망칠 것입니다.
Glen_b-복지 주 모니카

1
그들이 실제로 정상 성을 테스트하는 것이 무엇인지 (잔여 물인지 확실합니까?) 또는 그들이 어떤 데이터를 변환하고 있는지 (GLM인지) 확실하지 않습니다.
Scortchi-Monica Monica 복원

나는 인용을 조금 확장했다. 이 논문의 저자가 잘못했거나 옳은지를 누군가 확인할 수 있습니까?
luciano

여전히 명확하지 않다는 것이 두렵습니다. 논문의 다른 부분이나 참고 문헌에 설명되어 있지 않은 경우 분석을 수행 한 방법에 대한 자세한 내용은 저자에게 문의하십시오.
Scortchi-Monica Monica 복원

답변:


16

iyi

riD=2|log(1π^i)|

yi=0

riD=2|log(π^i)|

yi=1πi^

#generate Bernoulli probabilities from true model
x <-rnorm(100)
p<-exp(x)/(1+exp(x))

#one replication per predictor value
n <- rep(1,100)
#simulate response
y <- rbinom(100,n,p)
#fit model
glm(cbind(y,n-y)~x,family="binomial") -> mod
#make quantile-quantile plot of residuals
qqnorm(residuals(mod, type="deviance"))
abline(a=0,b=1)

QQ 플롯 n = 1

nii

riD=sgn(yiniπ^i)2[yilogyinπ^i+(niyi)logniyini(1π^i)]

yinini

#many replications per predictor value
n <- rep(30,100)
#simulate response
y<-rbinom(100,n,p)
#fit model
glm(cbind(y,n-y)~x,family="binomial")->mod
#make quantile-quantile plot of residuals
qqnorm(residuals(mod, type="deviance"))
abline(a=0,b=1)

QQ 플롯 n = 30

포아송 또는 음 이항 GLM의 경우와 유사합니다. 예측 된 수가 적 으면 잔차 분포가 이산 및 비뚤어 지지만 올바르게 지정된 모형에서 더 큰 수에 대해 정규화되는 경향이 있습니다.

적어도 숲의 목에는 그렇지 않은 것이 잔류 정규성에 대한 공식적인 테스트를 수행하는 것은 일반적이지 않습니다. 경우 정상 시험은 본질적으로 쓸모가 모델이 정확한 정상을 가정 할 때, 다음, 한층 유력한 이유로 는 쓸모가없는 경우. 그럼에도 불구하고, 불포화 모델의 경우 그래픽 잔차 진단은 예측 패턴 당 반복 횟수에 따라 핀치 또는 소금 한 덩어리로 정규성을 취하여 적합 부족의 존재 및 특성을 평가하는 데 유용합니다.


1

그들이 한 일은 맞습니다! 이중 확인에 대한 참조를 드리겠습니다. 선형 회귀 분석 소개, 5 판의 섹션 13.4.4 참조Douglas C. Montgomery, Elizabeth A. Peck, G. Geoffrey Vining. 특히 이항 glm에 맞는 460 페이지의 예를보고 "Deviance Residuals"의 정규성 가정을 다시 확인하십시오. 458 페이지에서 언급 한 것처럼, 이탈 잔차는 표준 정규 이론 선형 회귀 모델에서 일반 잔차와 매우 유사하게 동작하기 때문입니다. 따라서 정규 확률도 스케일 척도와 적합치 값으로 플롯하는 것이 좋습니다. 상기 참조의 456 페이지를 다시 참조한다. 이항 사례뿐만 아니라 (is = log)의 Poisson glm 및 Gamma에 대해 460 및 461 페이지에 제공 한 예제에서 이탈 잔차의 정규성을 확인했습니다.
이항의 경우 이탈 잔차는 다음과 같이 정의됩니다.

riD=2|ln(1πi^)|
yi=0
riD=2|ln(πi^)|
yi=1
> attach(npk)

> #Fitting binomila glm
> fit.1=glm(P~yield,family=binomial(logit))
> 
> #Getting deviance residuals directly
> rd=residuals(fit.1,type = c("deviance"))
> rd
         1          2          3          4          5          6          7 
 1.1038306  1.2892945 -1.2912991 -1.1479881 -1.1097832  1.2282009 -1.1686771 
         8          9         10         11         12         13         14 
 1.1931365  1.2892945  1.1903473 -0.9821829 -1.1756061 -1.0801690  1.0943912 
        15         16         17         18         19         20         21 
-1.3099491  1.0333213  1.1378369 -1.2245380 -1.2485566  1.0943912 -1.1452410 
        22         23         24 
 1.2352561  1.1543163 -1.1617642 
> 
> 
> #Estimated success probabilities
> pi.hat=fitted(fit.1)
> 
> #Obtaining deviance residuals directly
> rd.check=-sqrt(2*abs(log(1-pi.hat)))
> rd.check[P==1]=sqrt(2*abs(log(pi.hat[P==1])))
> rd.check
         1          2          3          4          5          6          7 
 1.1038306  1.2892945 -1.2912991 -1.1479881 -1.1097832  1.2282009 -1.1686771 
         8          9         10         11         12         13         14 
 1.1931365  1.2892945  1.1903473 -0.9821829 -1.1756061 -1.0801690  1.0943912 
        15         16         17         18         19         20         21 
-1.3099491  1.0333213  1.1378369 -1.2245380 -1.2485566  1.0943912 -1.1452410 
        22         23         24 
 1.2352561  1.1543163 -1.1617642 
> 

포아송 사건도 여기 에서 확인 하십시오 .


2
당신의 예는 이상한 선택입니다. 이탈 잔류 물에 대한 PP 또는 QQ 플롯을 만들었 습니까? 그렇다면 어떤 결론을 내렸습니까?
Scortchi-Monica Monica 복원

5
요점은이 경우 잔차의 정규성을 확인하는 데 의미가 없습니다. 분명히 정규 분포가 아니거나 분산되어 있지 않아야합니다. 잔차 분포 (예측 자 패턴 당 하나의 잔차)가 정규화되는 경향이 각 예측 변수 패턴에 대한 관측치 수가 증가 할 때만 가능합니다. 포아송 또는 음 이항 모델의 경우와 마찬가지로 정규 근사값이 양호하려면 카운트가 커야합니다.
Scortchi-Monica Monica 복원

2
문제는 일반화 된 선형 모형의 잔차가 정규 분포되어야하는지 여부입니다. 당신의 대답은 표시 이 규정 "예"(당신의 소스가 필요한 자격을 부여 의심 할 여지없이하지만,하지 모든 독자를 확인합니다)로. 그런 다음 모형이 올바르게 지정된 경우에도 잔차가 정규 분포를 기대할 이유전혀없는 예를 제시 합니다. 따라서 잔차를 조사하여 모델의 잘못된 사양을 탐지하는 예 (하지만 당신은 ...
Scortchi-Reinstate Monica

2
...)라고 말하지 않았습니다. 따라서 답을 유용하게 활용하려면 많은 설명이 필요하다고 생각합니다.
Scortchi-Monica Monica 복원

2
IMO @Scortchi의 의견은 여기서 합리적입니다. Google 도서 미리보기 에서 Montgomery 도서 에 대해 볼 수있는 것을 보면 QQ 플롯을 만들지 만 원래 포스터에서 언급 한 것처럼 실제 정규성 테스트를 수행하지는 않습니다. 물론 QQ 플롯을 만드는 것은 진단 테스트로 합리적이지만 거의 모든 실제 상황에서 이탈도 잔차가 있습니다. 정상이 아닙니다.
Andy W
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.