가우스 glm 제품군에 대해 lm과 glm간에 차이가 있습니까?


45

특히 lm(y ~ x1 + x2)와 사이에 차이가 있는지 알고 싶습니다 glm(y ~ x1 + x2, family=gaussian). 나는이 특정한 glm 사례가 lm과 같다고 생각합니다. 내가 잘못?


10
예, 아니오 통계 모델로서. R의 적합 물로 그렇습니다. 다른 반환 객체, 다른 알고리즘 사용.
개빈 심슨

3
여기에 R 질문뿐만 아니라 통계적인 질문이있는 것 같습니다.
Silverfish

답변:


48

질문 본문에 언급 된 특정 형태의 모형 (예 : lm(y ~ x1 + x2)vs glm(y ~ x1 + x2, family=gaussian))에서 회귀와 GLM은 동일한 모형이지만 제목 질문은 약간 더 일반적인 것을 요구합니다.

가우스 glm 제품군에 대해 lm과 glm간에 차이가 있습니까?

대답은 "예!"입니다.

이들이 다를 수있는 이유 는 GLM에 링크 기능 을 지정할 수도 있기 때문 입니다. 따라서 y (또는 조건부 평균)와 x 변수 사이의 특정 비선형 관계 형식을 맞출 수 있습니다 . 이 작업을 수행 할 수도 있지만 nls값을 시작할 필요가 없으며 때로는 수렴이 더 좋습니다 (구문이 조금 더 쉽습니다).

예를 들어 다음 모델을 비교하십시오 (R이 있으므로 직접 실행할 수 있다고 가정).

x1=c(56.1, 26.8, 23.9, 46.8, 34.8, 42.1, 22.9, 55.5, 56.1, 46.9, 26.7, 33.9, 
37.0, 57.6, 27.2, 25.7, 37.0, 44.4, 44.7, 67.2, 48.7, 20.4, 45.2, 22.4, 23.2, 
39.9, 51.3, 24.1, 56.3, 58.9, 62.2, 37.7, 36.0, 63.9, 62.5, 44.1, 46.9, 45.4, 
23.7, 36.5, 56.1, 69.6, 40.3, 26.2, 67.1, 33.8, 29.9, 25.7, 40.0, 27.5)

x2=c(12.29, 11.42, 13.59, 8.64, 12.77, 9.9, 13.2, 7.34, 10.67, 18.8, 9.84, 16.72, 
10.32, 13.67, 7.65, 9.44, 14.52, 8.24, 14.14, 17.2, 16.21, 6.01, 14.23, 15.63, 
10.83, 13.39, 10.5, 10.01, 13.56, 11.26, 4.8, 9.59, 11.87, 11, 12.02, 10.9, 9.5, 
10.63, 19.03, 16.71, 15.11, 7.22, 12.6, 15.35, 8.77, 9.81, 9.49, 15.82, 10.94, 6.53)

y = c(1.54, 0.81, 1.39, 1.09, 1.3, 1.16, 0.95, 1.29, 1.35, 1.86, 1.1, 0.96,
1.03, 1.8, 0.7, 0.88, 1.24, 0.94, 1.41, 2.13, 1.63, 0.78, 1.55, 1.5, 0.96, 
1.21, 1.4, 0.66, 1.55, 1.37, 1.19, 0.88, 0.97, 1.56, 1.51, 1.09, 1.23, 1.2, 
1.62, 1.52, 1.64, 1.77, 0.97, 1.12, 1.48, 0.83, 1.06, 1.1, 1.21, 0.75)

lm(y ~ x1 + x2)
glm(y ~ x1 + x2, family=gaussian) 
glm(y ~ x1 + x2, family=gaussian(link="log")) 
nls(y ~ exp(b0+b1*x1+b2*x2), start=list(b0=-1,b1=0.01,b2=0.1))

yiN(β0+β1x1i+β2x2i,σ2)yiN(exp(β0+β1x1i+β2x2i),σ2) 적합은 본질적으로 각 쌍 내에서 동일합니다.

따라서 제목 문제와 관련하여 회귀 분석보다 GLM을 사용하여 훨씬 더 다양한 가우시안 모델에 적합 할 수 있습니다.


4
+1. 계산의 측면 중 하나는 GLM 알고리즘이 일부 IRWLS 변형 (대부분의 경우)을 사용하는 반면 LM은 닫힌 양식 솔루션 변형을 중계한다고 생각합니다.
usεr11852는 Reinstate Monic이

@ usεr11852-나는 그것이 EM이라고 생각했을 것입니다. 그러나 그들은이 경우에 같은 것일 수 있습니다.
EngrStudent-복직 모니카

1
"이상 값"을 보는 것에 응답하지 않습니다 (위에 설명 된 가능성을 제외하고). 가중은 분산 함수의 영향과 로컬 선형 근사치의 이동으로 인한 것입니다.
Glen_b

1
tMASS::rlm

1
여러 가지 방법으로 생각하는 견고성을 얻을 수 있습니다. 그러나 GLMS 및 회귀 형 모델로, 당신은 y 방향 특이점 만의 다만 조심해야 할 영향력있는 ... 자신이 장소 밖으로 보이지 수 이상 값,
Glen_b

14

짧은 대답은 정확히 동일합니다.

# Simulate data:
set.seed(42)
n <- 1000

x1 <- rnorm(n, mean = 150, sd = 3)
x2 <- rnorm(n, mean = 100, sd = 2)
u  <- rnorm(n)
y  <- 5 + 2*x1 + 3*x2 + u

# Estimate with OLS:
reg1 <- lm(y ~ x1 + x2)
# Estimate with GLS
reg2 <- glm(y ~ x1 + x2, family=gaussian)

# Compare:
require(texreg)
screenreg(l = list(reg1, reg2))

=========================================
                Model 1      Model 2     
-----------------------------------------
(Intercept)        6.37 **       6.37 ** 
                  (2.20)        (2.20)   
x1                 1.99 ***      1.99 ***
                  (0.01)        (0.01)   
x2                 3.00 ***      3.00 ***
                  (0.02)        (0.02)   
-----------------------------------------
R^2                0.99                  
Adj. R^2           0.99                  
Num. obs.          1000          1000       
RMSE               1.00                  
AIC                           2837.66    
BIC                           2857.29    
Log Likelihood               -1414.83    
Deviance                       991.82    
=========================================
*** p < 0.001, ** p < 0.01, * p < 0.05

더 긴 답변; glm 함수는 MLE에 따라 모델에 적합하지만 링크 함수 (이 경우 정상)에 대한 가정 때문에 OLS 추정치가됩니다.


마지막 문장의 오타가 +1입니다. 일반적인 가정은 링크 함수가 아니라 오류 분포에 관한 것입니다. 귀하의 예에서 기본 링크 기능은 "identity"입니다. 보다 완벽한 양식은 glm입니다 glm(y ~ x1 + x2, family = gaussian(link = "identity")).
Paul

14

Repmat의 대답 @에서 모델 요약은 동일하지만,에서 CI는 회귀 계수의의 confint사이에 약간 다릅니다 lmglm.

> confint(reg1, level=0.95)
               2.5 %    97.5 %
(Intercept) 2.474742 11.526174
x1          1.971466  2.014002
x2          2.958422  3.023291
> confint(reg2, level=0.95)
Waiting for profiling to be done...
               2.5 %    97.5 %
(Intercept) 2.480236 11.520680
x1          1.971492  2.013976
x2          2.958461  3.023251

tlmglm

> beta <- summary(reg1)$coefficients[, 1]
    > beta_se <- summary(reg1)$coefficients[, 2]
> cbind(`2.5%` = beta - qt(0.975, n - 3) * beta_se, 
        `97.5%` = beta + qt(0.975, n - 3) * beta_se) #t
                2.5%     97.5%
(Intercept) 2.474742 11.526174
x1          1.971466  2.014002
x2          2.958422  3.023291
> cbind(`2.5%` = beta - qnorm(0.975)*beta_se, 
        `97.5%` = beta + qnorm(0.975)*beta_se) #normal
                2.5%     97.5%
(Intercept) 2.480236 11.520680
x1          1.971492  2.013976
x2          2.958461  3.023251
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.