이 답변은 두 부분으로 나뉩니다. 첫 번째는 질문에 대한 직접적인 답변이고 두 번째는 제안하는 모델에 대한 주석입니다.
첫 번째 부분은 Numbers
방정식의 rhs에 오프셋과 함께 사용하는 것과 관련이 있습니다 . 이를 수행하는 결과는 추정 된 계수에서 1을 빼서 Numbers
오프셋의 효과를 되돌리고 결과를 변경하지 않습니다. 관련없는 몇 줄의 출력이 제거 된 다음 예는이를 보여줍니다.
library(MASS)
Numbers <- rpois(100,12)
p <- 1 / (1 + exp(0.25*Numbers))
y <- rbinom(100, Numbers, p)
Incident <- pmin(y, 1)
> summary(glm(Incident~Numbers, family="binomial"))
Deviance Residuals:
Min 1Q Median 3Q Max
-1.3121 -1.0246 -0.8731 1.2512 1.7465
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.99299 0.80624 1.232 0.2181
Numbers -0.11364 0.06585 -1.726 0.0844 . <= COEFFICIENT WITH NO OFFSET TERM
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 135.37 on 99 degrees of freedom
Residual deviance: 132.24 on 98 degrees of freedom
AIC: 136.24
> summary(glm(Incident~Numbers, offset=Numbers, family="binomial"))
Deviance Residuals:
Min 1Q Median 3Q Max
-1.3121 -1.0246 -0.8731 1.2512 1.7465
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.99299 0.80624 1.232 0.218
Numbers -1.11364 0.06585 -16.911 <2e-16 *** <= COEFFICIENT WITH OFFSET TERM
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 342.48 on 99 degrees of freedom
Residual deviance: 132.24 on 98 degrees of freedom
AIC: 136.24
Numbers 계수와 null 이탈 (및 t- 통계는 -1 대신 0에 대해 테스트 중이므로)을 제외하고 모든 것이 어떻게 동일한 지 확인하십시오.
티1 − ( 1 − p티)엔티엔티티피티티로그( 1 − ( 1 − p티)엔티) / N티로그( 1 - p티). 이것은 하루에 1을 관찰 할 확률 사이의 관계를 나타냅니다.티 과 엔티로짓 척도의 선형 함수로 잘 모델링되지 않을 수 있습니다. (어쨌든 환자 치료의 질은 양호하지만 환자 치료의 질은 급격히 떨어질 수있는 약간의 "임계 값"을 기대할 수 있기 때문에 이런 경우가있을 수 있습니다.)엔티 분자 대신 분모를 사용하면 로그 내부에 어색한 지수가 남아 있습니다.
환자 당 환자마다 확률이 환자마다 다르기 때문에 더 복잡한 계층 적 모델로 이어질 것이라고 생각할 수도 있지만 여기서는 다루지 않겠습니다.
어쨌든, 로짓 척도에서 선형 인 모델을 사용하는 것보다는이 환자와 관찰 한 환자 수의 제한된 범위를 고려할 때 관계에 대해 비모수 적이며 환자 수를 3 명으로 그룹화하는 것이 좋습니다. 4 개의 그룹 (예 : 10-11, 12-13, 14-15 및 16-17)은 해당 그룹에 대한 더미 변수를 구성한 다음 오른쪽에 더미 변수를 사용하여 로지스틱 회귀 분석을 실행합니다. 이렇게하면 "시스템에 약 16 명의 환자가 과부하되어 사고가 크게 증가하기 시작"과 같은 비선형 관계를보다 효과적으로 포착 할 수 있습니다. 훨씬 더 넓은 범위의 환자가 있다면 'mgcv'패키지의 'gam'과 같은 일반적인 첨가 모델을 제안합니다.