로지스틱 및 로짓 선형 회귀로 추정 한 계수는 언제 다릅니 까?


11

연속적인 비율 (예 : 측량 사분면에서의 비례 식생 덮개 또는 활동에 종사하는 시간의 비율)을 모델링 할 때, 로지스틱 회귀는 부적절한 것으로 간주됩니다 (예 : Warton & Hui (2011) 아크 사인은 비사 인적입니다 : 생태학에서의 비율 분석 ). 오히려 로짓 변환 후 비율 또는 베타 회귀 후의 OLS 회귀가 더 적합합니다.

무엇을위한 조건 로짓 선형 회귀 분석과 로지스틱 회귀 계수 추정치가 R의 사용 다를 때 어떻게 lm하고 glm?

다음과 같이 시뮬레이트 된 데이터 세트를 사용하면 p원시 데이터 인 것으로 가정 할 수 있습니다 (예 : 대신 연속 비율 ).nsuccessesntrials

set.seed(1)
x <- rnorm(1000)
a <- runif(1)
b <- runif(1)
logit.p <- a + b*x + rnorm(1000, 0, 0.2)
p <- plogis(logit.p)

plot(p ~ x, ylim=c(0, 1))

여기에 이미지 설명을 입력하십시오

로짓 선형 모델을 피팅하면 다음을 얻을 수 있습니다.

summary(lm(logit.p ~ x))
## 
## Call:
## lm(formula = logit.p ~ x)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.64702 -0.13747 -0.00345  0.15077  0.73148 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 0.868148   0.006579   131.9   <2e-16 ***
## x           0.967129   0.006360   152.1   <2e-16 ***
## ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
## 
## Residual standard error: 0.208 on 998 degrees of freedom
## Multiple R-squared:  0.9586, Adjusted R-squared:  0.9586 
## F-statistic: 2.312e+04 on 1 and 998 DF,  p-value: < 2.2e-16

로지스틱 회귀 수율 :

summary(glm(p ~ x, family=binomial))
## 
## Call:
## glm(formula = p ~ x, family = binomial)
## 
## Deviance Residuals: 
##      Min        1Q    Median        3Q       Max  
## -0.32099  -0.05475   0.00066   0.05948   0.36307  
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  0.86242    0.07684   11.22   <2e-16 ***
## x            0.96128    0.08395   11.45   <2e-16 ***
## ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 176.1082  on 999  degrees of freedom
## Residual deviance:   7.9899  on 998  degrees of freedom
## AIC: 701.71
## 
## Number of Fisher Scoring iterations: 5
## 
## Warning message:
## In eval(expr, envir, enclos) : non-integer #successes in a binomial glm!

로지스틱 회귀 계수 추정값이 로짓 선형 모형의 추정값과 관련하여 항상 편향되지 않습니까?


1
이론적 차이에 유의하십시오. 이항 모델을 비율에 적용하면 각 비율 뒤에있는 시행이 독립적 인 것으로 가정합니다. 즉, 비율 뒤에있는 0.1것은 10 개의 독립적 인 시행이 성공했다고합니다. 선형 모델의 경우 0.1단순히 임의의 척도 인 값입니다.
ttnphns

1
OP가 수행하는 방식으로 이항 모델을 비율에 적용하는 것이 얼마나 의미가 있는지는 다소 의심 스럽습니다. 결국 family=binomial종속 변수는 비율이 아니라 이항 수를 나타냅니다. 어떻게 할 glm것을 알고 0.1"10 명 중 하나"가 아니라 "백 십 밖으로"처럼? 비율 자체는 다르지 않지만 표준 오류 계산 방법에 중요한 영향을 미칩니다.
Wolfgang

1
@ Wolffgang-나는 로지스틱 회귀로 이러한 종류의 연속적인 비율을 모델링하는 것이 부적절하다는 것을 알고 있습니다. 계수의 점 추정치가 어떻게 / 언제 / 어떻게 다른지에 더 관심이있었습니다.
jbaums

2
@ Wolffgang, 당신 말이 맞지만 구현에 달려 있습니다. 일부 프로그램은베이스 대신에 DV 및 1로 비율을 입력 할 수있게 해주는 반면, 데이터 세트는 실제베이스에 의해 가중됩니다. 따라서 카운트가 아닌 비율을 분석하는 것처럼 보입니다.
ttnphns

1
@ttnphns 유사하게, R에서 DV로 비율을 입력하고 weightsarg에 많은 시도를 포함하는 벡터를 제공 할 수 있습니다 (이것은 의도적으로 데이터를 잘못 분석 한 게시물에서 시도한 것이 아닙니다).
jbaums

답변:


5

아마도 이것은 "역방향"으로 대답 할 수 있습니다. 즉, 그것들은 언제 동일합니까?

이제 로지스틱 회귀 분석에 사용 된 IRLS 알고리즘이 여기에 통찰력을 제공합니다. 수렴시 모델 계수를 다음과 같이 표현할 수 있습니다.

β^logistic=(XTWX)1XTWz

여기서 는 i 번째 항이 대각선 가중치 행렬 이고 는 . 참고 회귀를 만드는가 매우 유사한 것 가중 량의 "로짓 종류"에 최소 제곱. 모든 관계 회귀 내재 참고 (예를 들어 에 따라 에 따라 ).WWii=nipi(1pi)z VR(ZI-X T I β )=W - 1 I I ZβZzi=xiTβ^logistic+yinipinipi(1pi)var(zixiTβ^)=Wii1zβz

따라서 차이는 주로 가중 최소 제곱 (로지스틱) 대 비가 중 최소 제곱 (로짓의 OL)을 사용하는 것이 좋습니다. 당신이 logits 가중 경우 에 의해 (여기서 "이벤트"의 수이고 에서 "시험"의 수) 당신이 얻을 것이다 호출 더 유사한 결과.Y ( 1 - Y / N ) (Y) Nlog(y)log(ny)y(1y/n)ynlm ()


감동적인. 주어진 시뮬레이션 데이터를 사용하여 R 코드로 마지막 문장을 보여 주시겠습니까? 감사!
JellicleCat

2

내가 틀렸다면 주저하지 말고 알려주십시오.

먼저, 두 번째로, 당신 glm은 잘못된 방식으로 전화합니다 ! 로 로지스틱 회귀를 맞추려면 glm반응이 (이진) 범주 형 변수 여야하지만 p숫자 변수 인 을 사용 합니다! warning사용자에게 실수를 알리기에는 너무 온화 하다고 말해야합니다 ...

그리고 당신이 예상 할 수 있듯이, 단지 COINCIDENCE에 의한 두 피팅에 의해 비슷한 계수의 추정치를 얻습니다. 당신이 교체하는 경우 logit.p <- a + b*x + rnorm(1000, 0, 0.2)logit.p <- a + b*x + rnorm(1000, 0, 0.7), 예로부터 오차항의 분산을 변경 0.2하는 0.7두 번째 맞는 (하지만, 다음이 개 적합의 결과는 크게 다를 것이다 glm) 모두에서 의미가 ...

로지스틱 회귀는 (이진) 분류에 사용되므로 위에서 설명한대로 범주 형 응답이 있어야합니다. 예를 들어, 응답 관측 값은 데이터에서와 같이 일련의 "확률 (빈도)"이 아니라 일련의 "성공"또는 "실패"여야합니다. 지정된 범주 형 데이터 세트의 경우 시리즈가 아닌 "응답 = 성공"또는 "응답 = 실패"에 대한 전체 빈도를 하나만 계산할 수 있습니다. 생성 한 데이터에는 범주 형 변수가 없으므로 로지스틱 회귀를 적용하는 것은 불가능합니다. 이제 그것들은 비슷한 모양을 가지고 있지만, 로짓 선형 회귀 (당신이 부르는대로)는 변환 된 응답 (sqr 또는 sqrt 변환과 같은)을 사용하는 일반적인 선형 REGRESSION 문제 (즉, 응답은 숫자 변수)입니다.

일반적으로 선형 회귀는 회귀 문제의 제곱 손실을 최소화하는 일반 최소 제곱 (OLS)을 통해 적합합니다. 로지스틱 회귀 분석은 분류 가능성에 대한 로그 손실을 최소화하는 MLE (Maximum Likelihood Estimate)를 통해 적합합니다. 다음은 손실 함수 Loss Function, Deva Ramanan 에 대한 참조입니다 . 첫 번째 예에서는 p반응으로 간주 하고 OLS를 통해 일반적인 선형 회귀 모형을 적합합니다. 두 번째 예에서는 R로 로지스틱 회귀 모형을 적합 family=binomial시키므로 RMLE로 모형을 적합시킵니다. 보시다시피, 첫 번째 모델에서는 선형 회귀에 적합한 OLS의 클래식 출력 인 t-test 및 F-test를 얻습니다. 두 번째 모델에서 계수의 유의성 검정 zt로지스틱 회귀 분석에 적합한 MLE의 고전적인 결과물입니다.


좋은 질문 (+1)과 좋은 답변 (+1). 나는 새로운 것을 배웠다.
Aleksandr Blekh

1
동의합니다. 그러나 이것은 logistic regression is a CLASSIFICATION problem잘 분류 할 수있는 한 가치가 있다는 의미에서 잘못 해석 될 수 있습니다. 이론적으로는 "최적"인 모델과 확률을 모델링하는 방법에 따라 모델이 좋지 않은 모델보다 더 나쁘게 분류 될 수 있기 때문에 생각하기가 잘못 될 것 입니다.
ttnphns

@ttnphns 귀하의 의견에 감사드립니다! 응답이 범주 적 인 경우 분류 문제라고하는 것이 관례라고 생각합니다. 모델의 성능 여부는 중요하지만 이름에 영향을 미치지 않습니다.
JellicleCat

감사합니다 @JellicleCat-이 유형의 비율 데이터는 로지스틱 회귀 분석에는 적합하지 않지만 로짓 변환 비율을 갖는 OLS와 계수 추정치가 다른 상황에 대해 궁금했습니다. 예를 들어 주셔서 감사합니다. 분산이 증가하면 계수 추정치가 분기됩니다.
jbaums
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.