범주 형 변수와 연속 형 변수 간의 상호 작용 계수 해석


10

연속 변수와 범주 변수 간의 상호 작용 계수 해석에 대한 질문이 있습니다. 내 모델은 다음과 같습니다.

model_glm3=glm(cog~lg_hag+race+pdg+sex+as.factor(educa)+(lg_hag:as.factor(educa)), 
               data=base_708)

Coefficients:
                         Estimate Std. Error t value Pr(>|t|)    
(Intercept)               21.4836     2.0698  10.380  < 2e-16 ***
lg_hag                     8.5691     3.7688   2.274  0.02334 *  
raceblack                 -8.4715     1.7482  -4.846 1.61e-06 ***
racemexican               -3.0483     1.7073  -1.785  0.07469 .  
racemulti/other           -4.6002     2.3098  -1.992  0.04687 *  
pdg                        2.8038     0.4268   6.570 1.10e-10 ***
sexfemale                  4.5691     1.1203   4.078 5.15e-05 ***
as.factor(educa)2         13.8266     2.6362   5.245 2.17e-07 ***
as.factor(educa)3         21.7913     2.4424   8.922  < 2e-16 ***
as.factor(educa)4         19.0179     2.5219   7.541 1.74e-13 ***
as.factor(educa)5         23.7470     2.7406   8.665  < 2e-16 ***
lg_hag:as.factor(educa)2 -21.2224     6.5904  -3.220  0.00135 ** 
lg_hag:as.factor(educa)3 -19.8083     6.1255  -3.234  0.00129 ** 
lg_hag:as.factor(educa)4  -8.5502     6.6018  -1.295  0.19577    
lg_hag:as.factor(educa)5 -17.2230     6.3711  -2.703  0.00706 ***

모델의 방정식은 다음과 같습니다.

E [cog] = a + b1 (lg_hag) + b2 (educa2 * lg_hag) + b3 (educa3 * lg_hag) + b4 (educa4 * lg_hag) + b5 (pdg, centered) + 다른 코바

b1 = difference in cog  with higher lg_hag among lowest education (coded as 1)
b1 + b2 = difference in cog with higher lg_hag among middle education (coded as 2)
b1 + b3 = difference in cog with higher lg_hag among high education (coded as 3)
b1 + b3 = difference in cog with higher lg_hag among very high education (coded as 4)
b5 = difference in cog with each unit increase in pdg

내 질문은 : 내 해석이 옳다면 b1과 b2의 신뢰 구간에서 상호 작용의 각 효과 추정 (예 : b1 + b2)에 대한 신뢰 구간을 구성하는 방법입니다.


R에서 그렇게하는 방법에 익숙하지 않다. sas에서 "estimate"로 결과를 얻을 수 있다고 가정한다. support.sas.com/documentation/cdl/en/statug/63033/HTML/default/…를
boomean

답변:


8

모형 계수에 대한 해석이 완전히 정확하지 않습니다. 먼저 모형의 용어를 요약하겠습니다.

범주 형 변수 (인자) : , 및racesexeduca

이 요소 race에는 네 가지 수준이 있습니다.race={white,black,mexican,multi/other}

이 요인 sex에는 두 가지 수준이 있습니다.sex={male,female}

이 요소 educa에는 가지 수준이 있습니다.educa={1,2,3,4,5}

기본적으로 R은 범주 형 변수에 처리 대비를 사용합니다. 이러한 대비에서 요인의 첫 번째 값은 참조 수준으로 사용되고 나머지 값은 참조와 비교하여 테스트됩니다. 범주 형 변수의 최대 대비 수는 레벨 수에서 1을 뺀 값과 같습니다.

대조적으로 race다음과 같은 차이점을 테스트 할 수 있습니다 : , , .race=black vs.race=whiterace=mexican vs.race=whiterace=multi/other vs.race=white

요소 경우, 참조 레벨은 이고 대비 패턴은 유사합니다. 이러한 효과는 종속 변수의 차이로 해석 될 수 있습니다. 귀하의 예에서의 평균 값 은 ( )에 비해 대해 단위 더 높습니다 .educa1cog13.8266educa=2educa=1as.factor(educa)2

한 가지 중요한 참고 사항 : 범주 형 변수에 대한 처리 대비가 모형에 존재하는 경우 추가 효과와 범주 형 변수 사이의 상호 작용도 포함 된 경우 추가 효과의 추정은 범주 형 변수의 참조 수준을 기반으로합니다. 변수가 교호 작용의 일부가 아닌 경우 계수는 나머지 모든 범주 형 변수를 따라이 변수 하위 집합의 개별 기울기 평균에 해당합니다. 과 의 효과 는 다른 변수의 요인 수준에 대한 평균 효과에 해당합니다. 전반적인 효과를 테스트하려면 모델에서 와 를 떠나야 합니다.raceeducaraceeducasex

숫자 변수 :lg_hagpdg

모두 lg_hagpdg숫자 변수 따라서 계수의 증가와 관련된 종속 변수의 변화를 나타내는 예측기하여.1

원칙적으로 이러한 효과의 해석은 간단합니다. 그러나 만약 상호 작용이 존재한다면, 계수의 추정은 요인의 참조 범주에 기초한다 (처리 대조가 사용되는 경우). 는 작용의 일부가 아니기 때문에 계수는 변수의 평균 기울기에 비례합니다. 가변 와의 상호 작용과 같은 부분이며 . 그러므로 그 효과는 기본 레벨 인 유지 합니다.; 요인 수준에 관계없이 숫자 변수 의 전반적인 영향에 대한 테스트는 아닙니다 .pdglg_hageducaeduca=1lg_hag

범주 형 변수와 숫자 형 변수 간의 상호 작용 : lg_hag×educa

이 모델은 단지 숫자 변수 사이의 주 효과뿐만 아니라 상호 작용을 포함하지 않는 과와 관련된 네 개의 대조 . 이러한 효과는 특정 수준의 수준 과 기준 수준 ( ) 사이 의 기울기 차이로 해석 될 수 있습니다 .lg_hageducalg_hageducaeduca=1

예를 들어, 계수 lg_hag:as.factor(educa)2( -21.2224)는 기울기 가 비해 대해 단위 더 낮음을 의미합니다 .lg_hag21.2224educa=2educa=1


"이러한 상호 작용 계수도에 대한 유지 race=white하고 sex=male만." 당신은 이것을 확신합니까? 나는 그 용어 와 상호 작용 race하거나 sex상호 작용 하지 않기 때문에 묻습니다 lg_hag×educa... 나는 이것을 분명히 나타내지 않는 몇 가지 텍스트를보고 있습니다.
landroni

2
@landroni 기울기는 모든 나머지 예측 변수가 0 인 지점에 대해 추정됩니다.
Sven Hohenstein

그래, 나도 이해하고있어 다른 모든 예측 변수는 일정하게 유지되므로 요인이 기준 수준으로 고정됩니다. 그러나 거기에는 내 수수께끼가 있습니다. 나는이 미묘하지만 광범위한 뉘앙스에 대해 대부분 광택이있는 여러 책을 보았습니다. 더욱이, 논문은 종종 "업종별 통제"라는 논문이 있지만, 이는 기준 수준에 대한 것임을 지적하는 대신 계수가 전체 표본에 대해 무조건적인 것처럼 결론을 내립니다. stats.stackexchange.com/questions/146665/ …
landroni

1
"범주 형 변수에 대한 처리 대비가 모델에 존재하는 경우, 추가 효과의 추정은 범주 형 변수의 참조 수준을 기반으로합니다." 더 고려한 후에, 나는 확신하지 못한다 (또는 나는 당신의 주장을 완전히 따르지 않는다). 예를 들어 베타의 추정치 pdg는 기준 수준에 따라 달라지며 이는 사실이 아닙니다. 요인의 기준 수준 (예 sexpdg
:)을

1
@landroni 지적 해 주셔서 감사합니다. 당신 말이 맞습니다.이 진술은 오도의 소지가 있습니다. 실제로 범주 형 변수와의 교호 작용 항의 일부인 예측 변수 만 보유합니다. 따라서 추정치 pdg는 실제로 명암의 사양에 의존 하지 않습니다 . 이에 따라 답변을 수정하겠습니다.
스벤 호헨 슈타인
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.