답변:
가능한 설명 중 하나는 결과와 예측 변수 사이의 비선형 성입니다.
여기 작은 예가 있습니다. 우리는 유니폼에 예측 사용 . 그러나 결과 는 예측 변수에 선형 적으로 의존 하지 않고 예측 변수의 제곱 에 의존합니다 . TRUE는 과 둘 다에 대해 가능성이 높지만 대해서는 가능성이 적습니다 . 이 경우 선형 모형은 중요하지 않지만 예측 변수를 구간으로 자르면 중요합니다.
> set.seed(1)
> nn <- 1e3
> xx <- runif(nn,-1,1)
> yy <- runif(nn)<1/(1+exp(-xx^2))
>
> library(lmtest)
>
> model_0 <- glm(yy~1,family="binomial")
> model_1 <- glm(yy~xx,family="binomial")
> lrtest(model_1,model_0)
Likelihood ratio test
Model 1: yy ~ xx
Model 2: yy ~ 1
#Df LogLik Df Chisq Pr(>Chisq)
1 2 -676.72
2 1 -677.22 -1 0.9914 0.3194
>
> xx_cut <- cut(xx,c(-1,-0.3,0.3,1))
> model_2 <- glm(yy~xx_cut,family="binomial")
> lrtest(model_2,model_0)
Likelihood ratio test
Model 1: yy ~ xx_cut
Model 2: yy ~ 1
#Df LogLik Df Chisq Pr(>Chisq)
1 3 -673.65
2 1 -677.22 -2 7.1362 0.02821 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
그러나 이것이 예측자를 구별하는 것이 최선의 방법이라는 것을 의미하지는 않습니다. 스플라인 또는 이와 유사한 방법을 사용하여 비선형 성을 모델링하는 것이 훨씬 좋습니다 .
한 가지 가능한 방법은 관계가 명확하게 비선형 인 경우입니다. 이것이 실제로 무슨 일이 일어나고 있는지 설명 할 수는 없습니다 (세부 사항이 부족함).
스스로 확인할 수 있습니다. 먼저 변수 자체에 대해 변수 플롯을 추가하고 모형의 요인 버전에서 적합 효과를 플롯 할 수도 있습니다. 설명이 맞다면, 둘 다 분명하게 비선형적인 패턴을 보게됩니다.