연속적인 비율 (예 : 측량 사분면에서의 비례 식생 덮개 또는 활동에 종사하는 시간의 비율)을 모델링 할 때, 로지스틱 회귀는 부적절한 것으로 간주됩니다 (예 : Warton & Hui (2011) 아크 사인은 비사 인적입니다 : 생태학에서의 비율 분석 ). 오히려 로짓 변환 후 비율 또는 베타 회귀 후의 OLS 회귀가 더 적합합니다.
무엇을위한 조건 로짓 선형 회귀 분석과 로지스틱 회귀 계수 추정치가 R의 사용 다를 때 어떻게 lm
하고 glm
?
다음과 같이 시뮬레이트 된 데이터 세트를 사용하면 p
원시 데이터 인 것으로 가정 할 수 있습니다 (예 : 대신 연속 비율 ).
set.seed(1)
x <- rnorm(1000)
a <- runif(1)
b <- runif(1)
logit.p <- a + b*x + rnorm(1000, 0, 0.2)
p <- plogis(logit.p)
plot(p ~ x, ylim=c(0, 1))
로짓 선형 모델을 피팅하면 다음을 얻을 수 있습니다.
summary(lm(logit.p ~ x))
##
## Call:
## lm(formula = logit.p ~ x)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.64702 -0.13747 -0.00345 0.15077 0.73148
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.868148 0.006579 131.9 <2e-16 ***
## x 0.967129 0.006360 152.1 <2e-16 ***
## ---
## Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
##
## Residual standard error: 0.208 on 998 degrees of freedom
## Multiple R-squared: 0.9586, Adjusted R-squared: 0.9586
## F-statistic: 2.312e+04 on 1 and 998 DF, p-value: < 2.2e-16
로지스틱 회귀 수율 :
summary(glm(p ~ x, family=binomial))
##
## Call:
## glm(formula = p ~ x, family = binomial)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -0.32099 -0.05475 0.00066 0.05948 0.36307
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 0.86242 0.07684 11.22 <2e-16 ***
## x 0.96128 0.08395 11.45 <2e-16 ***
## ---
## Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 176.1082 on 999 degrees of freedom
## Residual deviance: 7.9899 on 998 degrees of freedom
## AIC: 701.71
##
## Number of Fisher Scoring iterations: 5
##
## Warning message:
## In eval(expr, envir, enclos) : non-integer #successes in a binomial glm!
로지스틱 회귀 계수 추정값이 로짓 선형 모형의 추정값과 관련하여 항상 편향되지 않습니까?
family=binomial
종속 변수는 비율이 아니라 이항 수를 나타냅니다. 어떻게 할 glm
것을 알고 0.1
"10 명 중 하나"가 아니라 "백 십 밖으로"처럼? 비율 자체는 다르지 않지만 표준 오류 계산 방법에 중요한 영향을 미칩니다.
weights
arg에 많은 시도를 포함하는 벡터를 제공 할 수 있습니다 (이것은 의도적으로 데이터를 잘못 분석 한 게시물에서 시도한 것이 아닙니다).
0.1
것은 10 개의 독립적 인 시행이 성공했다고합니다. 선형 모델의 경우0.1
단순히 임의의 척도 인 값입니다.