답변:
이를 탐색하는 한 가지 방법은 다른 도구를 사용하여 동일한 모델을 피팅하는 것입니다. 여기에 한 가지 예가 있습니다.
> fit1 <- lm( Sepal.Length ~ ., data=iris )
> fit2 <- glm( Sepal.Length ~ ., data=iris )
> summary(fit1)
Call:
lm(formula = Sepal.Length ~ ., data = iris)
Residuals:
Min 1Q Median 3Q Max
-0.79424 -0.21874 0.00899 0.20255 0.73103
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.17127 0.27979 7.760 1.43e-12 ***
Sepal.Width 0.49589 0.08607 5.761 4.87e-08 ***
Petal.Length 0.82924 0.06853 12.101 < 2e-16 ***
Petal.Width -0.31516 0.15120 -2.084 0.03889 *
Speciesversicolor -0.72356 0.24017 -3.013 0.00306 **
Speciesvirginica -1.02350 0.33373 -3.067 0.00258 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.3068 on 144 degrees of freedom
Multiple R-squared: 0.8673, Adjusted R-squared: 0.8627
F-statistic: 188.3 on 5 and 144 DF, p-value: < 2.2e-16
> summary(fit2)
Call:
glm(formula = Sepal.Length ~ ., data = iris)
Deviance Residuals:
Min 1Q Median 3Q Max
-0.79424 -0.21874 0.00899 0.20255 0.73103
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.17127 0.27979 7.760 1.43e-12 ***
Sepal.Width 0.49589 0.08607 5.761 4.87e-08 ***
Petal.Length 0.82924 0.06853 12.101 < 2e-16 ***
Petal.Width -0.31516 0.15120 -2.084 0.03889 *
Speciesversicolor -0.72356 0.24017 -3.013 0.00306 **
Speciesvirginica -1.02350 0.33373 -3.067 0.00258 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for gaussian family taken to be 0.09414226)
Null deviance: 102.168 on 149 degrees of freedom
Residual deviance: 13.556 on 144 degrees of freedom
AIC: 79.116
Number of Fisher Scoring iterations: 2
> sqrt( 0.09414226 )
[1] 0.3068261
따라서 선형 모형의 잔차 표준 오차가 glm에서 분산의 제곱근에 불과하다는 것을 알 수 있습니다. 즉, 분산 (가우시안 모형의 경우)은 평균 제곱 오차와 같습니다.
데이터에 공변량 정보가없는 간단한 상황을 추측 해 봅시다. 예를 관찰 .
정규 분포를 사용하여 데이터를 모델링하는 경우 아마도
,
그런 다음 최대 가능성 추정을 통해 및 추정하십시오.
그러나 데이터가 카운트 데이터이므로 정규 분포가 아니라고 가정 해 봅시다. 이 경우에도 연속적이지 않으므로 대신 포아송 분포를 사용할 수 있습니다.
.
그러나 여기에는 하나의 매개 변수 만 있습니다! 단일 매개 변수 는 및 평균과 분산을 모두 결정합니다 . Bernoulli 또는 이항 분포를 사용할 때도 발생합니다. 그러나 관측치가 실제로 iid가 아니거나 선택한 분포가 현실적이지 않기 때문에 데이터에 더 크거나 작은 분산이있을 수 있습니다.
따라서 사람들은 분산 평균을 추가하여 평균과 분산을 동시에 모델링 할 때 추가 자유도를 얻습니다. 나는 GLM의 교과서가 그것이 무엇인지에 대해 더 상세하고 수학적 설명을 줄 것이라고 생각하지만 동기 부여는 매우 간단합니다.