GLM 과대 산포가 유의한지 여부를 확인하는 테스트가 있습니까?


44

R로 Poisson GLM을 만들고 있습니다.과 분산을 확인하기 위해 잔차 이탈과 자유도의 비율을보고 summary(model.name)있습니다.

"중요한"것으로 간주 될 컷오프 값이나 테스트가 있습니까? 1보다 크면 데이터가 과도하게 분산되어 있지만 비율이 상대적으로 1에 가까울 경우 (예 : 1.7 (잔여 편차 = 25.48, df = 15) 및 1.3 (rd = 324, df) = 253)], 여전히 quasipoisson / negative 이항식으로 전환해야합니까? 여기서 1-pchisq (residual deviance, df)라는 의미에 대한이 테스트를 찾았 지만 한 번만 보았으므로 긴장하게되었습니다. 또한 <1.5의 비율이 일반적으로 안전하다는 것을 읽었습니다 (소스를 찾을 수 없음). 의견?

답변:


45

R 패키지 AER 에는 Cameron & Trivedi (1990)의 과대 산포 테스트를dispersiontest 구현하는 함수가 있습니다.

포아송 모델에서 평균은 이고 분산도 입니다. 그들은 평등합니다. 이 검정은 에서 상수 과소 산포를 의미 하고 과대 산포를 대체하는 대안에 대한 귀무 가설로이 가정을 간단히 테스트합니다 . 함수 는 일부 모노톤 함수입니다 (선형 또는 2 차; 전자가 기본값 임). 결과 테스트는 테스트와 동일합니다 대 이며 사용 된 테스트 통계량은 a 통계적으로 표준 정규 인 통계입니다.V R ( Y ) = μ V R ( Y ) = μ + C * F ( μ ) C < 0 C > 0 F ( . ) H 0 : C = 0 H 1 : C 0 E(Y)=μVar(Y)=μVar(Y)=μ+cf(μ)c<0c>0f(.)H0:c=0H1:c0t

예:

R> library(AER)
R> data(RecreationDemand)
R> rd <- glm(trips ~ ., data = RecreationDemand, family = poisson)
R> dispersiontest(rd,trafo=1)

Overdispersion test

data:  rd
z = 2.4116, p-value = 0.007941
alternative hypothesis: true dispersion is greater than 0
sample estimates:
dispersion 
    5.5658 

여기서 우리는 등분 산의 가정 (즉, c = 0)에 대해 상당히 강하게 말하는과 분산의 증거 (c는 5.57로 추정 됨)가 있음을 분명히 알 수있다.

사용하지 않을 경우주의 trafo=1, 실제로의 테스트 할 것입니다 대 과 은 다른 시험과 과정 같은 결과가 테스트 통계가 1만큼 이동하는 것과는 별개입니다. 그러나 그 이유는 후자가 준-포아송 모델의 공통 매개 변수화에 대응하기 때문입니다. H 1 : c 1 c = c + 1H0:c=1H1:c1c=c+1


1
나는 glm(trips ~ 1, data = data, family = poisson)(즉 , 내 데이터 1보다는) 사용해야 .했지만 정말 감사합니다
Phil

12

대안은 음 이항 회귀의 로그 우도 비율을 푸 아송 회귀 의 제한과 비교 odTest하는 pscl라이브러리 의 대안입니다 . 다음과 같은 결과가 나타납니다.μ=Var

>library(pscl)

>odTest(NegBinModel) 

Likelihood ratio test of H0: Poisson, as restricted NB model:
n.b., the distribution of the test-statistic under H0 is non-standard
e.g., see help(odTest) for details/references

Critical value of test statistic at the alpha= 0.05 level: 2.7055 
Chi-Square Test Statistic =  52863.4998 p-value = < 2.2e-16

여기서 Poisson 제한의 널 (null)은 나의 부정적인 이항 회귀에 찬성하여 거부됩니다 NegBinModel. 왜? 검정 통계량 52863.49982.7055a로 초과 하기 때문 p-value of < 2.2e-16입니다.

의 장점은 AER dispersiontest클래스의 반환 된 객체는 "htest"는 계급 'odTest`보다 (라텍스 변환 예) 형식으로 쉽다.


5

다른 대안은 패키지 의 P__disp기능 을 사용하는 것입니다 msme. 이 P__disp함수를 사용하여 또는에 모형을 피팅 한 후 Pearson 및 Pearson 분산 통계 를 계산할 수 있습니다 .χ2glmglm.nb


2

또 다른 옵션은 가능성 분산 테스트를 사용하여 과분 산이있는 쿼시 포이 손 GLM이 과분 산이없는 일반 포아송 GLM보다 훨씬 우수함을 보여줍니다.

fit = glm(count ~ treatment,family="poisson",data=data) 
fit.overdisp = glm(count ~ treatment,family="quasipoisson",data=data) 
summary(fit.overdisp)$dispersion # dispersion coefficient
pchisq(summary(fit.overdisp)$dispersion * fit$df.residual, fit$df.residual, lower = F) # significance for overdispersion
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.