summary.glm ()의 분산


13

나는 glm.nb를 수행했다.

glm1<-glm.nb(x~factor(group))

그룹은 범주 형이고 x는 메트릭 변수입니다. 결과 요약을 얻으려고 할 때 summary()또는 사용 여부에 따라 약간 다른 결과가 나타납니다 summary.glm. summary(glm1)나에게 준다

    ...
Coefficients:
                    Estimate Std. Error z value Pr(>|z|)  
    (Intercept)       0.1044     0.1519   0.687   0.4921  
    factor(gruppe)2   0.1580     0.2117   0.746   0.4555  
    factor(gruppe)3   0.3531     0.2085   1.693   0.0904 .
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

    (Dispersion parameter for Negative Binomial(0.7109) family taken to be 1)

반면 summary.glm (glm1)은 나에게

    ...
Coefficients:
                    Estimate Std. Error t value Pr(>|t|)  
    (Intercept)       0.1044     0.1481   0.705   0.4817  
    factor(gruppe)2   0.1580     0.2065   0.765   0.4447  
    factor(gruppe)3   0.3531     0.2033   1.737   0.0835 .
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

    (Dispersion parameter for Negative Binomial(0.7109) family taken to be 0.9509067)

분산 매개 변수의 의미를 이해하지만 선의 의미는 이해하지 못합니다.

(Dispersion parameter for Negative Binomial(0.7109) family taken to be 0.9509067).

이 핸드북에서는 추정 된 분산 일 것이지만 0.95가 0.7109에 가깝지 않거나 추정 된 분산이 추정 된 분산 매개 변수와 다른 것이기 때문에 나쁜 추정치 인 것 같습니다. 나는 분산 summary.nb(x, dispersion=)을 무언가로 설정해야하지만 분산을 1로 설정 summary()해야하는지 확실하지 않습니다 ( 분산 매개 변수의 추정치 와 동일한 결과를 얻 거나 이 경우 summary.nb(glm1, dispersion=0.7109)다른 것으로 연결 되거나 다른 것을 사용 summary(glm1)합니까?


3
negbin 클래스에 적절한 S3 메소드로 디스패치 할 때 summary ()를 사용하십시오. 분산은 물론 1이어야하며, 추정되는 것은 세타 (theta)이며, 이는 혼동을 피하기 위해 형상 매개 변수라고하는 것이 좋습니다. 또한 참조 stats.stackexchange.com/questions/27773/how-does-glm-nb-work/...
모모

답변:


13

먼저 summary.glmclass의 객체에 사용해서는 안됩니다 "negbin". 에 대한 함수 코드를 summary.glm보면 바로 상단에의 계산이 표시 dispersion됩니다. 참고 것으로 summary.glm 만은 으로 장착 할 수 있습니다 모델에 대해 알고 glm및 분산 매개 변수를 특별 대우에 대한 이항 및 포아송 가족 밖으로 따라서 그것은 싱글 IS 가정 이 아닌 다른 모델의 경우 1로 동일하게, 에서 계산 모형 객체이지만 이항 또는 포아송 이 아닌 패밀리에 적합하다는 가정을 기반으로합니다 . 에 적합한 모델의 는 입니다. 따라서 사용할 때ϕϕϕfamilyglm.nb"Negative Binomial(theta)"summary.glmglm.nb에서 코드를 적용한 모델 에서

if (is.null(dispersion)) 
    dispersion <- if (object$family$family %in% c("poisson", 
        "binomial")) 
        1
    else if (df.r > 0) {
        est.disp <- TRUE
        if (any(object$weights == 0)) 
                warning("observations with zero weight not used for calculating dispersion")
            sum((object$weights * object$residuals^2)[object$weights > 
            0])/df.r
    }

에 대한 테스트 "poisson"또는 "binomial"실패 후 를 계산합니다. 여기서 실제로는이 패밀리에 대해 기본적으로 1로 가정됩니다 (의 정의에 따라) .ϕsummary.negbin

이것에 아무런 문제가 없으며, 올바른 메소드를 호출하고 argument를 통해 다른 값을 제공하는 것이 더 간단합니다 .ϕdispersion

둘째, 출력을 오해합니다. 당신이 볼 때

Negative Binomial(0.7109)

위에서 언급했듯이 괄호 안에 인용 된 숫자는 이며, 음 이항 분포의 모수입니다. 이 값은 피팅 중 추정 된 값입니다. 분산 매개 변수 는 가 아니므로 두 숫자가 반드시 같을 필요는 없습니다. 그들은 단지 두 숫자입니다. φθ^ϕ

계산 된 분산 (위의 코드에서 인용 한)는 1에 가깝기 때문에 (~ 0.95) 표준 오류에 사용되는 이라는 가정 은 너무 나쁘지 않습니다 . 물론 할 수 있습니다.ϕ = 1ϕϕ=1summary.negbin

summary(glm1, dispersion = 0.9509)

그리고 그 추가 출력을 얻을 negbin방법을 제공, 플러스 의 가정 된 값보다는 계산 .ϕ


5
+1 좋은 설명입니다. 작은 의견이 두 개 있습니다. 이항, 포아송 및 알려진 이항 매개 변수를 갖는 음 이항의 분산 매개 변수는 지수 패밀리의 정의에 따라 1입니다 (가정은 아닙니다). 다른 분산이 추정되고 요약 방법에 공급 될 수 있다고 말할 때, 특히 가능성에 영향을 미치는 준 영역으로 모험을하기 때문에주의해야합니다.
모모

@ 모모 잘 말했다. 나는 당신이 말한 것과 각 기능에 대한 도움말 페이지의 세부 사항 사이를 찢었습니다.
복원 모니카

2

Venables & Ripley (2002)에서 S를 사용한 Modern Applied Statistics : 'Theta'는 모양이 & scale 인 감마 분포를 정의 하므로 평균은 이고 분산은 . 를이 분포의 랜덤 변수로 하자 . 응답 는 평균 와 함께 포아송으로서 조건부 분포됩니다. 여기서 는 선택한 링크에 따라 예측 변수 및 계수의 함수입니다. 한계 적으로, 분포는 질량 함수를 갖는 음 이항입니다1θ 111θ1 EYEμEμ1θEYEμEμ

f(y)=Γ(θ+y)Γ(θ)y!μyθθ(μ+θ)θ+y

기대

EY=μ

& 분산

VarY=μ+μ2θ

@Momo가 지적했듯이, 분산 매개 변수는 완전히 다른 것입니다. 이는 유사 가능성 추정에 따라 달라질 수 있습니다. 음 이항 모델과 (참) 포아송 모델의 경우 1의 값으로 올바르게 고정됩니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.