로지스틱 회귀 분석에서 범주 형 예측 변수의 중요성


19

로지스틱 회귀 분석에서 범주 형 변수의 z 값을 해석하는 데 문제가 있습니다. 아래 예제에는 클래스가 3 개인 범주 형 변수가 있으며 z 값에 따라 CLASS2는 관련이 있지만 다른 클래스는 관련이 없습니다.

그러나 이것이 무엇을 의미합니까?

다른 수업을 하나로 합칠 수 있습니까?
전체 변수가 좋은 예측 변수가 아닐 수 있습니까?

이것은 단지 예일 뿐이며 실제 z 값은 실제 문제가 아니며 해석에 어려움이 있습니다.

           Estimate    Std. Error  z value Pr(>|z|)    
CLASS0     6.069e-02  1.564e-01   0.388   0.6979    
CLASS1     1.734e-01  2.630e-01   0.659   0.5098    
CLASS2     1.597e+00  6.354e-01   2.514   0.0119 *  

답변:


47

다음 설명은 로지스틱 회귀에만 국한되지 않고 일반 선형 회귀 및 기타 GLM에 동일하게 적용됩니다. 일반적 R제외 하나 범주의 레벨과 계수 나타낸다 this 참조 클래스로, 각 클래스의 차이 (또는라고도 기본 클래스) (이것은 부호화 또는 치료 대조 더미 호출을 R참조 여기 상이한 콘트라스트 옵션 우수한 개요 ). 에 현재 대비를 보려면을 R입력하십시오 options("contrasts"). 일반적으로 R범주 형 변수의 레벨을 사전 순으로 정렬하고 첫 번째를 참조 클래스로 사용합니다. 항상 최적 인 것은 아니며 입력하여 변경할 수 있습니다 (여기서 새 변수에서 참조 클래스를 "c"로 설정)new.variable <- relevel(old.variable, ref="c"). 범주 형 변수의 모든 수준의 각 계수에 대해 참조 클래스의 계수와 다른 클래스의 계수 차이가 0과 다른지 여부테스트 하기 위해 Wald 테스트 가 수행됩니다 . 이것이 회귀 테이블 의 zp 값입니다. 범주 형 클래스가 하나만 중요한 경우 전체 변수가 의미가 없으며 모델에서 제거해야한다는 의미 는 아닙니다 . 넌 수행하여 변수의 전체적인 효과를 확인할 수 우도 비 테스트 : 맞는 두 모델의 변수를 입력하지 않고 하나 하나 하여 (아래의 예를 참조). 예를 들면 다음과 같습니다.anova(model1, model2, test="LRT")R

mydata <- read.csv("https://stats.idre.ucla.edu/stat/data/binary.csv")

mydata$rank <- factor(mydata$rank)

my.mod <- glm(admit ~ gre + gpa + rank, data = mydata, family = "binomial")

summary(my.mod)

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -3.989979   1.139951  -3.500 0.000465 ***
gre          0.002264   0.001094   2.070 0.038465 *  
gpa          0.804038   0.331819   2.423 0.015388 *  
rank2       -0.675443   0.316490  -2.134 0.032829 *  
rank3       -1.340204   0.345306  -3.881 0.000104 ***
rank4       -1.551464   0.417832  -3.713 0.000205 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

rank1rankrank1rankrank1rank20.675rank1rank23.990.675=4.67rank1rank1. - 1모든 계수를 직접 보려면 모델 공식 에 추가하여 절편없이 모델을 적합시킬 수도 있습니다.

my.mod2 <- glm(admit ~ gre + gpa + rank - 1, data = mydata, family = "binomial")

summary(my.mod2) # no intercept model

Coefficients:
       Estimate Std. Error z value Pr(>|z|)    
gre    0.002264   0.001094   2.070 0.038465 *  
gpa    0.804038   0.331819   2.423 0.015388 *  
rank1 -3.989979   1.139951  -3.500 0.000465 ***
rank2 -4.665422   1.109370  -4.205 2.61e-05 ***
rank3 -5.330183   1.149538  -4.637 3.54e-06 ***
rank4 -5.541443   1.138072  -4.869 1.12e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

절편은 이제 사라졌고 계수 rank1는 정확히 첫 번째 모형의 절편입니다. 여기서 Wald 검정은 계수 간의 쌍별 차이가 아니라 각 개별 계수가 0 이라는 가설을 확인 합니다. 다시, 우리는 모든 계수가 rank0과 다르다는 증거를 가지고 있습니다 . 마지막으로, 모든 변수가 있는지 여부를 확인하는 rank모델 착용감을 향상 우리는 하나 개 모델 (맞게 my.mod1가변없이)을 rank( my.mod2)과 우도 비율 테스트를 수행. 이것은 모든 계수 rank가 0 이라는 가설을 테스트합니다 .

my.mod1 <- glm(admit ~ gre + gpa + rank, data = mydata, family = "binomial") # with rank
my.mod2 <- glm(admit ~ gre + gpa, data = mydata, family = "binomial") # without rank

anova(my.mod1, my.mod2, test="LRT")

Analysis of Deviance Table

Model 1: admit ~ gre + gpa + rank
Model 2: admit ~ gre + gpa
  Resid. Df Resid. Dev Df Deviance  Pr(>Chi)    
1       394     458.52                          
2       397     480.34 -3  -21.826 7.088e-05 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

우도 비 검정은 매우 중요하며 변수 rank가 모형에 남아 있어야한다는 결론을 내릴 것 입니다.

이 게시물 도 매우 흥미 롭습니다.


매우 유익한 답변! 한가지 간단한 질문 : 만약 우리가 오직 예측 인으로서 만 순위를 가지고 있다면? LRT 테스트를 수행하는 경우 null은 admit ~ 1vs admit ~ rank - 1?
NULL

1
@NULL 예, null 대 admit~rank또는 또는 둘 중 하나 admit~rank - 1는 적합과 관련하여 동일합니다.
COOLSerdash

좋아요 – 감사합니다! 또 다른 빠른 질문 : 범주 형 변수의 계수에 대한 꼬리 꼬리 Wald 검정을 수행하는 데 관심이있을 때 (기준과 비교하지 않고-절편을 의미하지 않음), 다른 예측 변수의 영향 gre과 같은 다른 예측 변수의 gpa영향 절편 포함?
NULL

다시 말해서, 다른 공변량을 제어하면서 범주 형 예측 변수의 계수에 대해 단측 검정을 수행하려면이 방법이 있습니까? 선형 회귀에도 적용 할 수 있습니까?
NULL

1
rankrank

8

중요하지 않은 계수는 카테고리를 병합 할 수 있다는 의미입니까? 첫째, 중요하지 않다는 것은 차이가 없다는 가설을 기각 할 수는 없지만 그러한 차이가 없다는 것을 의미하지는 않습니다. 증거가 없다는 것은 부재의 증거와 다릅니다. 둘째, 범주, 특히 참조 범주를 병합하면 다른 모든 계수의 해석이 변경됩니다. 그것이 합리적인지 아닌지는 다른 클래스가 무엇을 의미하는지에 달려 있습니다.

이는 전체 범주 형 변수가 "나쁜"(유의하지 않은) 예측 변수라는 의미입니까? 아니요, 모든 CLASS 용어에 대해 동시 테스트를 수행해야합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.