변수를 분류하면 중요하지 않은 변수에서 중요하지 않은 변수로 바뀝니다.


17

다변량 로지스틱 회귀 모델에서 중요하지 않은 숫자 변수가 있습니다. 그러나 그룹으로 분류하면 갑자기 중요해집니다. 이것은 나에게 반 직관적입니다. 변수를 분류 할 때 우리는 정보를 제공합니다.

어떻게 이럴 수있어?

답변:


25

가능한 설명 중 하나는 결과와 예측 변수 사이의 비선형 성입니다.

여기 작은 예가 있습니다. 우리는 유니폼에 예측 사용 [1,1] . 그러나 결과 는 예측 변수에 선형 적으로 의존 하지 않고 예측 변수의 제곱 에 의존합니다 . TRUE는 x1x1 둘 다에 대해 가능성이 높지만 x0 대해서는 가능성이 적습니다 . 이 경우 선형 모형은 중요하지 않지만 예측 변수를 구간으로 자르면 중요합니다.

> set.seed(1)
> nn <- 1e3
> xx <- runif(nn,-1,1)
> yy <- runif(nn)<1/(1+exp(-xx^2))
> 
> library(lmtest)
> 
> model_0 <- glm(yy~1,family="binomial")
> model_1 <- glm(yy~xx,family="binomial")
> lrtest(model_1,model_0)
Likelihood ratio test

Model 1: yy ~ xx
Model 2: yy ~ 1
  #Df  LogLik Df  Chisq Pr(>Chisq)
1   2 -676.72                     
2   1 -677.22 -1 0.9914     0.3194
> 
> xx_cut <- cut(xx,c(-1,-0.3,0.3,1))
> model_2 <- glm(yy~xx_cut,family="binomial")
> lrtest(model_2,model_0)
Likelihood ratio test

Model 1: yy ~ xx_cut
Model 2: yy ~ 1
  #Df  LogLik Df  Chisq Pr(>Chisq)  
1   3 -673.65                       
2   1 -677.22 -2 7.1362    0.02821 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

그러나 이것이 예측자를 구별하는 것이 최선의 방법이라는 것을 의미하지는 않습니다. 또는 이와 유사한 방법을 사용하여 비선형 성을 모델링하는 것이 훨씬 좋습니다 .


이산화가 합리적 일 수있는 몇 가지 예가 있습니까? 예를 들어, 결과의 이진 전환이 발생하는 특정 임계 값 (예 : 18 세)이있는 경우. 18 세 이상의 숫자 연령은 중요하지 않지만 이진 나이> 18은 중요 할 수 있습니까?
ajrwhite 2015 년

3
@ ajrwhite : 그것은 현장에 따라 다릅니다. 법에 따라 임계 값이 체계화되어있는 곳이라면 어디에서나 적절할 수 있습니다. 예를 들어, 투표 행동을 모델링하는 경우 누군가 18 세에 실제로 투표 할 자격이 있는지 여부를 확인하는 것이 합리적입니다. 마찬가지로 독일에서도 차량 세금이 엔진 변위에 따라 다르며 1700, 1800, 1900, ... 거의 모든 자동차의 변위가 1699, 1799, ... ccm (자체 분리)입니다. 생물학, 의학, 심리학 등과 같은 자연 과학에서 나는 이산화가 의미가있는 예를 찾기 위해 고심하고 있습니다.
S. Kolassa-복원 모니카

7

한 가지 가능한 방법은 관계가 명확하게 비선형 인 경우입니다. 이것이 실제로 무슨 일이 일어나고 있는지 설명 할 수는 없습니다 (세부 사항이 부족함).

스스로 확인할 수 있습니다. 먼저 변수 자체에 대해 변수 플롯을 추가하고 모형의 요인 버전에서 적합 효과를 플롯 할 수도 있습니다. 설명이 맞다면, 둘 다 분명하게 비선형적인 패턴을 보게됩니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.