GLM 출력의 분산 매개 변수


11

R에서 glm을 실행했으며 summary()출력 하단 근처에서

(Dispersion parameter for gaussian family taken to be 28.35031)

Google에서 일부 문제를 해결했으며 분산 매개 변수가 표준 오류에 적합하다는 것을 알았습니다. 분산 매개 변수가 무엇이며 어떻게 해석 해야하는지에 대한 자세한 내용을 누군가가 제공 할 수 있기를 바랍니다.

답변:


9

이를 탐색하는 한 가지 방법은 다른 도구를 사용하여 동일한 모델을 피팅하는 것입니다. 여기에 한 가지 예가 있습니다.

> fit1 <- lm( Sepal.Length ~ ., data=iris )
> fit2 <- glm( Sepal.Length ~ ., data=iris )
> summary(fit1)

Call:
lm(formula = Sepal.Length ~ ., data = iris)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.79424 -0.21874  0.00899  0.20255  0.73103 

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)        2.17127    0.27979   7.760 1.43e-12 ***
Sepal.Width        0.49589    0.08607   5.761 4.87e-08 ***
Petal.Length       0.82924    0.06853  12.101  < 2e-16 ***
Petal.Width       -0.31516    0.15120  -2.084  0.03889 *  
Speciesversicolor -0.72356    0.24017  -3.013  0.00306 ** 
Speciesvirginica  -1.02350    0.33373  -3.067  0.00258 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.3068 on 144 degrees of freedom
Multiple R-squared: 0.8673,     Adjusted R-squared: 0.8627 
F-statistic: 188.3 on 5 and 144 DF,  p-value: < 2.2e-16 

> summary(fit2)

Call:
glm(formula = Sepal.Length ~ ., data = iris)

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-0.79424  -0.21874   0.00899   0.20255   0.73103  

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)        2.17127    0.27979   7.760 1.43e-12 ***
Sepal.Width        0.49589    0.08607   5.761 4.87e-08 ***
Petal.Length       0.82924    0.06853  12.101  < 2e-16 ***
Petal.Width       -0.31516    0.15120  -2.084  0.03889 *  
Speciesversicolor -0.72356    0.24017  -3.013  0.00306 ** 
Speciesvirginica  -1.02350    0.33373  -3.067  0.00258 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

(Dispersion parameter for gaussian family taken to be 0.09414226)

    Null deviance: 102.168  on 149  degrees of freedom
Residual deviance:  13.556  on 144  degrees of freedom
AIC: 79.116

Number of Fisher Scoring iterations: 2

> sqrt( 0.09414226 )
[1] 0.3068261

따라서 선형 모형의 잔차 표준 오차가 glm에서 분산의 제곱근에 불과하다는 것을 알 수 있습니다. 즉, 분산 (가우시안 모형의 경우)은 평균 제곱 오차와 같습니다.


4

데이터에 공변량 정보가없는 간단한 상황을 추측 해 봅시다. 예를 관찰 .Y1,Y2,,YnR

정규 분포를 사용하여 데이터를 모델링하는 경우 아마도

YiN(μ,σ2) ,

그런 다음 최대 가능성 추정을 통해 및 추정하십시오.μσ

그러나 데이터가 카운트 데이터이므로 정규 분포가 아니라고 가정 해 봅시다. 이 경우에도 연속적이지 않으므로 대신 포아송 분포를 사용할 수 있습니다.

YiPoisson(λ) .

그러나 여기에는 하나의 매개 변수 만 있습니다! 단일 매개 변수 는 및 평균과 분산을 모두 결정합니다 . Bernoulli 또는 이항 분포를 사용할 때도 발생합니다. 그러나 관측치가 실제로 iid가 아니거나 선택한 분포가 현실적이지 않기 때문에 데이터에 더 크거나 작은 분산이있을 수 있습니다.λE[Yi]=λVar[Yi]=λ

따라서 사람들은 분산 평균을 추가하여 평균과 분산을 동시에 모델링 할 때 추가 자유도를 얻습니다. 나는 GLM의 교과서가 그것이 무엇인지에 대해 더 상세하고 수학적 설명을 줄 것이라고 생각하지만 동기 부여는 매우 간단합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.