교호 작용 항이 포함 된 경우에만 문제가되는 공선 성 진단


26

나는 미국 카운티에 대해 회귀 분석을 수행했으며 '독립적 인'변수에서 공선 성을 검사하고 있습니다. Belsley, Kuh 및 Welsch의 회귀 진단 에서는 조건 지수 및 분산 분해 비율을 살펴볼 것을 제안합니다.

library(perturb)
## colldiag(, scale=TRUE) for model with interaction
Condition
Index   Variance Decomposition Proportions
           (Intercept) inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct elderly09_pct inc09_10k:unins09
1    1.000 0.000       0.000     0.000   0.000    0.001             0.002        0.003        0.002       0.002      0.001         0.000            
2    3.130 0.000       0.000     0.000   0.000    0.002             0.053        0.011        0.148       0.231      0.000         0.000            
3    3.305 0.000       0.000     0.000   0.000    0.000             0.095        0.072        0.351       0.003      0.000         0.000            
4    3.839 0.000       0.000     0.000   0.001    0.000             0.143        0.002        0.105       0.280      0.009         0.000            
5    5.547 0.000       0.002     0.000   0.000    0.050             0.093        0.592        0.084       0.005      0.002         0.000            
6    7.981 0.000       0.005     0.006   0.001    0.150             0.560        0.256        0.002       0.040      0.026         0.001            
7   11.170 0.000       0.009     0.003   0.000    0.046             0.000        0.018        0.003       0.250      0.272         0.035            
8   12.766 0.000       0.050     0.029   0.015    0.309             0.023        0.043        0.220       0.094      0.005         0.002            
9   18.800 0.009       0.017     0.003   0.209    0.001             0.002        0.001        0.047       0.006      0.430         0.041            
10  40.827 0.134       0.159     0.163   0.555    0.283             0.015        0.001        0.035       0.008      0.186         0.238            
11  76.709 0.855       0.759     0.796   0.219    0.157             0.013        0.002        0.004       0.080      0.069         0.683            

## colldiag(, scale=TRUE) for model without interaction
Condition
Index   Variance Decomposition Proportions
           (Intercept) inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct elderly09_pct
1    1.000 0.000       0.001     0.001   0.000    0.001             0.003        0.004        0.003       0.003      0.001        
2    2.988 0.000       0.000     0.001   0.000    0.002             0.030        0.003        0.216       0.253      0.000        
3    3.128 0.000       0.000     0.002   0.000    0.000             0.112        0.076        0.294       0.027      0.000        
4    3.630 0.000       0.002     0.001   0.001    0.000             0.160        0.003        0.105       0.248      0.009        
5    5.234 0.000       0.008     0.002   0.000    0.053             0.087        0.594        0.086       0.004      0.001        
6    7.556 0.000       0.024     0.039   0.001    0.143             0.557        0.275        0.002       0.025      0.035        
7   11.898 0.000       0.278     0.080   0.017    0.371             0.026        0.023        0.147       0.005      0.038        
8   13.242 0.000       0.001     0.343   0.006    0.000             0.000        0.017        0.129       0.328      0.553        
9   21.558 0.010       0.540     0.332   0.355    0.037             0.000        0.003        0.003       0.020      0.083        
10  50.506 0.989       0.148     0.199   0.620    0.393             0.026        0.004        0.016       0.087      0.279        

?HH::vif VIF가 5보다 크면 문제가 있음을 나타냅니다.

library(HH)
## vif() for model with interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         8.378646         16.329881          1.653584          2.744314          1.885095          1.471123          1.436229          1.789454 
    elderly09_pct inc09_10k:unins09 
         1.547234         11.590162 

## vif() for model without interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         1.859426          2.378138          1.628817          2.716702          1.882828          1.471102          1.404482          1.772352 
    elderly09_pct 
         1.545867 

John Fox의 Regression Diagnostics 는 VIF의 제곱근을 살펴볼 것을 제안합니다.

library(car)
## sqrt(vif) for model with interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         2.894589          4.041025          1.285917          1.656597          1.372987          1.212898          1.198428          1.337705 
    elderly09_pct inc09_10k:unins09 
         1.243879          3.404433 
## sqrt(vif) for model without interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         1.363608          1.542121          1.276251          1.648242          1.372162          1.212890          1.185108          1.331297 
    elderly09_pct 
         1.243329 

처음 두 경우 (명확한 컷오프가 제안되는 경우)에는 교호 작용 항이 포함 된 경우에만 모형에 문제가 있습니다.

교호 작용 항이있는 모형은이 시점까지 제가 선호하는 사양이었습니다.

이 기발한 데이터에 대해 두 가지 질문이 있습니다.

  1. 교호 작용 항은 항상 데이터의 공선 성을 악화 시킵니까?
  2. 교호 작용 항이없는 두 변수가 임계 값을 초과하지 않으므로 교호 작용 항이있는 모형을 사용하는 것이 좋습니다. 특히, 이것이 괜찮다고 생각하는 이유는 King, Tomz 및 Wittenberg (2000) 방법을 사용하여 계수 (음수 이항 모델)를 해석하기 때문에 일반적으로 다른 계수를 평균으로 유지하기 때문입니다. 내가 이동할 때 내 종속 변수의 예측에 무슨 해석 inc09_10kunins09독립적으로 공동 주변.

답변:


31

예, 이것은 일반적으로 중심이 아닌 상호 작용의 경우입니다. 두 개의 독립 변수와 "상호 작용"의 상관 관계에 대해 간략히 살펴보십시오.

set.seed(12345)
a = rnorm(10000,20,2)
b = rnorm(10000,10,2)
cor(a,b)
cor(a,a*b)

> cor(a,b)
[1] 0.01564907
> cor(a,a*b)
[1] 0.4608877

그런 다음 중앙에 놓으면

c = a - 20
d = b - 10
cor(c,d)
cor(c,c*d)

> cor(c,d)
[1] 0.01564907
> cor(c,c*d)
[1] 0.001908758

X, X2, ...

그래서 당신은 당신의 쌍으로 샷을 줄 수 있습니다.


중심화가 도움이되는 이유에 대해-공분산의 정의로 돌아가 보겠습니다.

코브(엑스,엑스와이)=이자형[(엑스이자형(엑스))(엑스와이이자형(엑스와이))]=이자형[(엑스μ엑스)(엑스와이μ엑스와이)]=이자형[엑스2와이엑스μ엑스와이엑스와이μ엑스+μ엑스μ엑스와이]=이자형[엑스2와이]이자형[엑스]μ엑스와이이자형[엑스와이]μ엑스+μ엑스μ엑스와이

X와 Y의 독립성도

=이자형[엑스2]이자형[와이]μ엑스μ엑스μ와이μ엑스μ와이μ엑스+μ엑스μ엑스μ와이=(σ엑스2+μ엑스2)μ와이μ엑스2μ와이=σ엑스2μ와이

엑스와이


엑스엑스와이와이엑스엑스와이와이


재미 있네요 센터링이 중요한 이유에 대한 설명이나 인용이 있습니까?
Ari B. Friedman

나는이 답변이 현상금 전체를받을 가치가 있다고 생각하지 않지만 반 현상금을주고 싶습니다. :-/이지만 두 번째로 투표하지 않는 한 확실하지 않습니다.
Ari B. Friedman

1
@ AriB.Friedman, 당신은 현상금의 절반을 줄 수있는 옵션이 없습니다. 현상금을 수여 할 수는 없습니다 (여전히 담당자를 잃어 버렸지 만).이 게시물은 현상금의 절반을 자동으로 수여 받게됩니다 ( 도움말 페이지관련 섹션 참조 ). 그러나 왜이 답변이 현상금을받을 자격이 없습니까? Affine은 바로 여기에 있습니다 (+1).
gung-Monica Monica 복원

@ gung 나는 사전 편집을 찾고있었습니다. 확실히 가치가 있습니다. 감사합니다 @Affine! 반 현상금 부분 >=은 현상금이 수동으로 수여되지 않으면 +2 답변이 반 현상금을 얻습니다.
Ari B. Friedman

@ AriB.Friedman, 그렇습니다. 그러나 내가 댓글을 달기 전에 (& 공감 및 다른 사람도 마찬가지), 그는 2 + 공증을하지 않았습니다.
gung-Monica Monica 복원

0

이 주제에 대한 다음 간행물이 유용하다는 것을 알았습니다.

Robinson & Schumacker (2009) : 상호 작용 효과 : 중심화, 분산 인플레이션 계수 및 해석 문제

회귀 방정식의 계수 (중심 솔루션과 중심이 아닌 솔루션 및 고차 상호 작용 효과 (3 방향 상호 작용, 연속 효과로 범주화 됨)에 대한 예측 변수 스케일링 효과는 Aiken and West (1991)에 의해 신중하게 다루어졌습니다. 변수가 중심에 있지 않을 때 교호 작용 항과 함께 회귀 방정식에 도입됩니다. '

Afshartous & Preston (2011) : 센터링을 통한 상호 작용 모델의 주요 결과

'가변 센터링을 사용하는 동기에는 계수의 해석 능력 향상 및 다중 공선 성과 관련된 추정에 대한 수치 불안정성 감소가 포함됩니다.'

분명히 Aiken and West (1991)도이 주제를 다루지 만, 나는 그들의 책이 없다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.