GLM에 어떤 종류의 잔차와 쿡 거리가 사용됩니까?


11

쿡의 거리 공식이 무엇인지 아는 사람이 있습니까? 원래 Cook의 거리 공식은 학생 화 된 잔차를 사용하지만 R이 표준을 사용하는 이유는 무엇입니까? GLM에 대한 Cook의 거리 플롯을 계산할 때 Pearson 잔차가 발생합니다. 학생 화 된 잔차가 GLM에 대해 정의되지 않았지만 Cook의 거리를 계산하는 공식은 어떻게 생겼습니까?

다음 예제를 가정하십시오.

numberofdrugs <- rcauchy(84, 10)
healthvalue <- rpois(84,75)
test <- glm(healthvalue ~ numberofdrugs, family=poisson)
plot(test, which=5) 

쿡 거리의 공식은 무엇입니까? 즉, 빨간색 점선을 계산하는 공식은 무엇입니까? 표준화 된 Pearson 잔차에 대한이 공식은 어디에서 왔습니까?

요리사의 거리

답변:


15

코드 ( plot.lm괄호없이 간단한 유형 또는 edit(plot.lm)R 프롬프트)를 살펴보면 Cook의 거리cooks.distance()함수 와 함께 44 행에 정의되어 있음을 알 수 있습니다. 그것이 무엇을하는지 보려면 stats:::cooks.distance.glmR 프롬프트에 입력하십시오 . 거기에서 다음과 같이 정의되어 있음을 알 수 있습니다

(res/(1 - hat))^2 * hat/(dispersion * p)

여기서 res피어슨 잔차 (의해 반환있는 influence()기능) hat은 IS 모자 행렬 , p모델의 파라미터의 수이며, dispersion현재의 모델을 고려 분산액이다 (물류 및 포아송 회귀 하나에 고정 참조 help(glm)). 요컨대, 이는 관측치와 표준화 된 잔차의 레버리지 함수로 계산됩니다. (와 비교하십시오 stats:::cooks.distance.lm.)

보다 공식적인 참조를 위해 plot.lm()함수의 참조를 따를 수 있습니다.

벨리, DA, 쿠,이. 및 웰쉬, RE (1980). 회귀 진단 . 뉴욕 : 와일리.

또한 그래픽에 표시되는 추가 정보에 대해 더 자세히 살펴보고 R이

plot(xx, rsp, ...                    # line 230
panel(xx, rsp, ...)                  # line 233
cl.h <- sqrt(crit * p * (1 - hh)/hh) # line 243
lines(hh, cl.h, lty = 2, col = 2)    #
lines(hh, -cl.h, lty = 2, col = 2)   #  

여기서 rspStd로 표시됩니다. 피어슨 잔해. GLM의 경우 Std. 그렇지 않으면 잔차 (라인 172); 그러나 두 경우 모두 R이 사용하는 공식은 다음과 같습니다 (175 행 및 178 행)

residuals(x, "pearson") / s * sqrt(1 - hii)

어디 hii에서 일반 함수에 의해 반환되는 모자 매트릭스 lm.influence()입니다. 이것은 std의 일반적인 공식입니다. 잔차 :

rsj=rj1h^j

여기서 는 관심 있는 번째 공변량을 나타냅니다 . 예를 들어, Agresti Categorical Data Analysis , §4.5.5를 참조하십시오 .jj

R 코드의 다음 줄은 중요한 표준화 잔차에 대한 Cook의 거리 ( 기본적으로 참조 )와 등고선 (그림에 표시되지 않음) add.smooth=TRUE에 대해 더 부드럽게 그립니다 ( 옵션 참조 ).plot.lm()getOption("add.smooth")cook.levels=

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.