선형 회귀 분석에서 범주 형 변수의 통계적 유의성을 검정하는 방법은 무엇입니까?


18

선형 회귀 분석에 범주 형 변수가있는 경우 범주 형 변수의 통계적 유의성을 어떻게 알 수 있습니까?

요인 에 10 수준이 있다고 가정 해 봅시다. 한 요인 변수 X 1 의 우산 아래에 10 개의 다른 결과 t- 값이있을 것입니다 ...X1X1

통계적 유의성이 요인 변수의 각 수준에 대해 테스트 된 것 같습니다. 아니?

@ 매크로 : 당신의 제안에 따라 다음 예제를 작성했습니다.

x3은 유용하고 아래 모델 비교에서 모델에 포함되어야합니다.

그러나 실제로는 잘못되었습니다 ...

n=100    
x1=1:n
x2=(1:n)^2 
x3=rnorm(n)
ee=rnorm(n)
y=3*x1-2*x2+x3+3+ee
lm1=lm(y~x1+x2+x3)
summary(lm1)

lm2=lm(y~x1+x2) 
summary(lm2)

anova(lm1, lm2)

> anova(lm1, lm2)
Analysis of Variance Table

Model 1: y ~ x1 + x2 + x3
Model 2: y ~ x1 + x2
  Res.Df     RSS Df Sum of Sq      F    Pr(>F)    
1     96  82.782                                  
2     97 146.773 -1    -63.99 74.207 1.401e-13 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

1
@ 루나, 왜 잘못 되었나요? s x3를 생성하는 데 사용 된 것으로 보이 y므로 모델에 포함되어야하며 값이 해당 결론과 일치합니다. p
매크로

@ 세스-당신이 맞아요. 방금 모델 비교에서 anova를 사용하는 장난감 예제를 제공했습니다. 그래서 그것은 내 원래의 질문과 관련이 없습니다.
Luna

@ 매크로-당신이 맞아요. 이제 요점을 봅니다. 감사합니다!
Luna

R 'car'패키지의 'Anova'기능 ( pdf )을 사용하면 범주 형 변수의 전체적 유의성을 테스트 할 수 있습니다. 다양한 패키지 및 유형의 회귀와 함께 작동합니다.
SK4ndal

답변:


28

각 수준 의 평균이 참조 수준의 평균과 크게 다른지 여부 만 알려주 는 것이 맞습니다 . 따라서 그들은 단지 쌍으로 만 말해줍니다.p 레벨 간의 차이 . 범주 형 예측 변수가 전체적으로 유의한지 여부를 테스트하는 것은 예측 변수 수준의 평균에 이질성이 있는지 여부를 테스트하는 것과 같습니다. 모형에 다른 예측 변수가없는 경우 이는 고전적인 분산 분석 문제입니다.

모형에 다른 예측 변수가있는 경우 범주 형 예측 변수의 유의성을 검정하는 두 가지 옵션이 있습니다.

(1) 우도 비율 검정 : 결과 , 정량적 예측 변수 X i 1 , 가 있다고 가정합니다 . . . , X I , P 및 범주 예측기 C IK의 수치. 범주 형 예측 변수가없는 모형은YiXi1,...,XipCik

Yi=β0+β1Xi1+...+βpXip+εi

에서 R당신에게이 모델 들어갈 수있는 lm()명령과 함께 로그 가능성 추출 logLik명령을 사용합니다. 이 로그 우도 합니다. 다음으로 범주 형 예측 변수로 모형을 적합시킬 수 있습니다.L0

Yi=β0+β1Xi1+...+βpXip+j=1k1αjBj+εi

여기서 인 더미 변수라고 경우, D 내가 = J0 그렇지. K 번째의 레벨 만있다 이유 기준 레벨이며, K - 1 개 합계의 용어. categorical 형 변수를에 전달하면이 더미 코딩이 자동으로 수행됩니다 . 이 모형을 유사하게 적합하고 위와 같이 로그 우도를 추출 할 수 있습니다. 이 로그 우도 L 1이라고 합니다. 그런 다음 귀무 가설 하에서 D i 는 영향을 미치지 않습니다.Bj1Di=j0kk1Rlm()L1Di

λ=2(L1L0)

χ2k1p1-pchisq(2*(L1-L0),df=k-1)R 유의성을 테스트하기 위해 을 .

FRRlm()g1g0anova(g1,g0) 하면이 가설을 검정합니다. 뿐만 아니라 당신.

F


많은 매크로 감사합니다. 내 데이터가 매우 비정규 적이라는 것을 알았습니다. QQ 플롯은 다음과 같습니다. 곡선이 모두 직선 45도 선 아래에 있습니다. 곡선은 그 직선에 접합니다. 그리고 곡선은 f (x) =-x ^ 2 (모양 별)의 곡선처럼 보입니다. 어떤 종류의 문제에 직면하고 있습니까? 이 문제를 어떻게 해결해야합니까? 감사합니다!
Luna

1
@Luna, 데이터가 비정규 상태이거나 잔차가 비정규 상태입니까? 또한, 전체 점 세트가 45도 선 아래에있을 가능성이 없다고 생각합니다.
매크로

오, 사실 네 말이 맞아 .. QQ 줄거리를 한 번 더 보았습니다. 45도 선 아래에있는 전체 점 세트는 아닙니다. f (x) =-x ^ 2의 모양을 가진 곡선은 45도 선에 "접선"입니다. "탄젠트"라는 용어는 "탄젠트"지점 주위의 점이 실제로 45도 선 위에 있다는 것을 의미해야합니다. 따라서 시각적으로 말하면 대부분의 데이터 (~ 98 %)는 45도 미만입니다. 모델 비교를 수행하기 전에 먼저이 문제를 해결하려면 어떻게해야합니까? 감사합니다!
Luna

2
표본 크기가 꽤 큰 경우 오차 분포가 긴 범위를 벗어나지 않는 한, 값은 여전히 ​​중앙 한계 정리에 의해 합리적이어야합니다. : 방금 분리의 범주 형 변수를 테스트하려면, 당신은 비모수 ANOVA 사용할 수 있습니다 en.wikipedia.org/wiki/...을 하지만, 내가 말했듯이 정말 제기 것과 완전히 다른 문제가되고있다 및 수도 새로운 질문으로보다 적절하게 제시되거나 관련 질문을 위해 사이트를 검색하여 답변해야합니다.
매크로

1
@ Druss2k, 맞습니다.
매크로
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.