로지스틱 회귀와 분수 반응 회귀의 차이점은 무엇입니까?


13

내가 아는 한, 로지스틱 모델과 분수 응답 모델 (frm)의 차이점은 frm이 [0,1]이지만 로지스틱이 {0, 1} 인 종속 변수 (Y)입니다. 또한 frm은 유사 가능성 추정기를 사용하여 모수를 결정합니다.

일반적으로로 glm로지스틱 모델을 얻는 데 사용할 수 있습니다 glm(y ~ x1+x2, data = dat, family = binomial(logit)).

frm의 경우로 변경 family = binomial(logit)됩니다 family = quasibinomial(logit).

family = binomial(logit)frm의 매개 변수를 얻을 때도 동일한 추정 값을 얻을 수 있음을 알았습니다 . 다음 예를 참조하십시오

library(foreign)
mydata <- read.dta("k401.dta")


glm.bin <- glm(prate ~ mrate + age + sole + totemp, data = mydata
,family = binomial('logit'))
summary(glm.bin)

반환,

Call:
glm(formula = prate ~ mrate + age + sole + totemp, family = binomial("logit"), 
    data = mydata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-3.1214  -0.1979   0.2059   0.4486   0.9146  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept)  1.074e+00  8.869e-02  12.110  < 2e-16 ***
mrate        5.734e-01  9.011e-02   6.364 1.97e-10 ***
age          3.089e-02  5.832e-03   5.297 1.17e-07 ***
sole         3.636e-01  9.491e-02   3.831 0.000128 ***
totemp      -5.780e-06  2.207e-06  -2.619 0.008814 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 1166.6  on 4733  degrees of freedom
Residual deviance: 1023.7  on 4729  degrees of freedom
AIC: 1997.6

Number of Fisher Scoring iterations: 6

그리고위한 family = quasibinomial('logit'),

glm.quasi <- glm(prate ~ mrate + age + sole + totemp, data = mydata
,family = quasibinomial('logit'))
summary(glm.quasi)

반환,

Call:
glm(formula = prate ~ mrate + age + sole + totemp, family = quasibinomial("logit"), 
    data = mydata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-3.1214  -0.1979   0.2059   0.4486   0.9146  

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.074e+00  4.788e-02  22.435  < 2e-16 ***
mrate        5.734e-01  4.864e-02  11.789  < 2e-16 ***
age          3.089e-02  3.148e-03   9.814  < 2e-16 ***
sole         3.636e-01  5.123e-02   7.097 1.46e-12 ***
totemp      -5.780e-06  1.191e-06  -4.852 1.26e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for quasibinomial family taken to be 0.2913876)

    Null deviance: 1166.6  on 4733  degrees of freedom
Residual deviance: 1023.7  on 4729  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 6

둘 다의 추정 베타 family는 동일하지만 그 차이는 SE 값입니다. 그러나 올바른 SE를 얻으려면 library(sandwich)게시물 과 같이 사용해야 합니다.

이제 내 질문 :

  1. 이 두 코드의 차이점은 무엇입니까?
  2. frm은 견고한 SE를 얻으려고합니까?

이해가 정확하지 않은 경우 몇 가지 제안을하십시오.

답변:


11

질문이있는 경우 :이 두 코드의 차이점은 무엇입니까?

에보기는 ?glm말한다 See family for details of family functions,과에서 보면 ?family다음과 같은 설명을 보여준다 :

quasibinomial 및 quasipoisson 패밀리는 분산 매개 변수가 1로 고정되어 있지 않으므로이 분포 및 포아송 패밀리와 다르므로과 분산을 모델링 할 수 있습니다.

이것은 또한 출력에서 ​​볼 수있는 것입니다. 그리고 그것은 두 모델 / 코드의 차이점입니다.

질문 인 경우 : 로지스틱 회귀와 부분 반응 회귀의 차이점은 무엇입니까?

올바르게 식별 할 때 종속 변수가 0 또는 1 인 경우 모형은 로지스틱 모형입니다. Papke 및 Wooldridge 는이 추정값의 GLM을 분수 추정 및 매개 변수 추정에 사용할 수 있음을 보여 주었지만 강력한 표준 오류를 계산합니다. 이것은 로지스틱 회귀 분석에 필요하지 않으며 실제로 일부 사람들은 프로 빗 / 로짓 모델에서 강력한 표준 오류를 계산해서는 안된다고 생각합니다. 이것은 다른 논쟁이지만.

이론적 근거는 Gourieroux, Monfort 및 Trognon 의 유명한 논문에서 비롯됩니다.그들은 (일부 규칙 성 조건 하에서) 선형 지수 패밀리에 속하는 가능성을 최대화함으로써 획득 된 최대 가능성 파라미터가 선형 지수 패밀리의 다른 가능성에 속하는 파라미터에 대한 일관된 추정치임을 보여준다. 어떤 의미에서, 우리는 물류 분포가 정확한 것은 아니지만 여기서 물류 분포를 사용하고 있지만 매개 변수는 여전히 우리가 얻고 자하는 매개 변수와 일치합니다. 따라서 귀하의 질문이 종속 변수의 특성을 교환한다는 점을 제외하고 로지스틱 및 분수 반응 모델을 추정하기 위해 매우 동일한 우도 함수를 사용하고 있다는 관찰에서 비롯된 경우 이것은 직관입니다.


frm 성능을 어떻게 측정 할 수 있습니까? 선형 회귀와 같은 MSE를 사용할 수 있습니까?
초보자

1
그것은 매우 다른 질문입니다. 새로운 것으로 게시하십시오.
coffeinjunky
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.