에 대한 선형 회귀 모델에 관심이 있다고 가정 합니다. 두 공변량 간의 상호 작용이 Y에 영향을 미치는지 확인하고 싶습니다.
교수 과정 노트 (내가 연락하지 않은 사람)에는 다음과 같이 명시되어 있습니다. 즉, 가 회귀에 포함되어야합니다.
상호 작용에만 관심이있을 때 왜 2 차 용어를 포함시켜야합니까?
에 대한 선형 회귀 모델에 관심이 있다고 가정 합니다. 두 공변량 간의 상호 작용이 Y에 영향을 미치는지 확인하고 싶습니다.
교수 과정 노트 (내가 연락하지 않은 사람)에는 다음과 같이 명시되어 있습니다. 즉, 가 회귀에 포함되어야합니다.
상호 작용에만 관심이있을 때 왜 2 차 용어를 포함시켜야합니까?
답변:
추론의 목표에 달려 있습니다. 예를 들어, 인과적인 맥락에서 (또는 더 일반적으로 상호 작용 계수를 해석하려는 경우) 상호 작용이 있는지 여부를 추론하려는 경우 교수의이 권장 사항이 의미가 있으며 기능적 형태의 잘못이 상호 작용에 대한 잘못된 추론으로 이어질 수 있다는 사실 .
다음은 의 구조 방정식에서 과 사이에 작용 항이없는 간단한 예입니다. 그러나 의 2 차 항을 포함하지 않으면 이 와 실제로 상호 작용 한다고 결론을 내릴 수 있습니다. 티.
set.seed(10)
n <- 1e3
x1 <- rnorm(n)
x2 <- x1 + rnorm(n)
y <- x1 + x2 + x1^2 + rnorm(n)
summary(lm(y ~ x1 + x2 + x1:x2))
Call:
lm(formula = y ~ x1 + x2 + x1:x2)
Residuals:
Min 1Q Median 3Q Max
-3.7781 -0.8326 -0.0806 0.7598 7.7929
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.30116 0.04813 6.257 5.81e-10 ***
x1 1.03142 0.05888 17.519 < 2e-16 ***
x2 1.01806 0.03971 25.638 < 2e-16 ***
x1:x2 0.63939 0.02390 26.757 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.308 on 996 degrees of freedom
Multiple R-squared: 0.7935, Adjusted R-squared: 0.7929
F-statistic: 1276 on 3 and 996 DF, p-value: < 2.2e-16
이것은 단순히 변수 바이어스가 생략 된 경우로 해석 될 수 있으며 여기서 는 생략 된 변수입니다. 되돌아 가서 회귀에 제곱 항을 포함 시키면 겉보기 상호 작용이 사라집니다.
summary(lm(y ~ x1 + x2 + x1:x2 + I(x1^2)))
Call:
lm(formula = y ~ x1 + x2 + x1:x2 + I(x1^2))
Residuals:
Min 1Q Median 3Q Max
-3.4574 -0.7073 0.0228 0.6723 3.7135
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.0419958 0.0398423 -1.054 0.292
x1 1.0296642 0.0458586 22.453 <2e-16 ***
x2 1.0017625 0.0309367 32.381 <2e-16 ***
I(x1^2) 1.0196002 0.0400940 25.430 <2e-16 ***
x1:x2 -0.0006889 0.0313045 -0.022 0.982
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.019 on 995 degrees of freedom
Multiple R-squared: 0.8748, Adjusted R-squared: 0.8743
F-statistic: 1739 on 4 and 995 DF, p-value: < 2.2e-16
물론,이 추론은 2 차 용어뿐만 아니라 일반적으로 기능 형태의 잘못된 지정에 적용됩니다. 여기서 목표는 상호 작용을 평가하기 위해 조건부 기대 함수를 적절하게 모델링하는 것입니다. 선형 회귀를 사용한 모델링으로 자신을 제한하는 경우 이러한 비선형 항을 수동으로 포함해야합니다. 그러나 대안은 예를 들어 커널 릿지 회귀 와 같은보다 유연한 회귀 모델링을 사용하는 것입니다 .
rm(list=ls())
여기에 게시 된 코드에 포함시키지 마십시오 ! 사람들이 코드를 복사하여 붙여 넣고 실행하면 놀랍게 될 수 있습니다 ... 지금은 그것을 제거했습니다.
당신이 당신의 대답에 나와있는 두 모델은 명확하게하기 위해 다시 표현 될 수있는 방법 의 효과를 에 의존하는 것으로 가정 각 모델에서 (또는 다른 방법으로).
첫 번째 모델은 다음과 같이 다시 표현 될 수 있습니다.
이 모델에서 에 선형 효과가 있다고 가정 (효과의 제어 ) 그러나이 선형 효과의 크기- -함수에 따라 선형으로 변경 . 예를 들어 의 위에 의 값으로 크기가 증가 할 수 있습니다 증가하다.
두 번째 모델은 다음과 같이 다시 표현 될 수 있습니다.
이 모델에서 의 위에 (효과의 제어 )는 선형이 아니라 2 차로 가정합니다. 이 이차 효과는 두 가지를 모두 포함하여 캡처됩니다 과 모델에서. 계수는 독립적 인 것으로 가정 , 계수 선형 적으로 의존하는 것으로 가정 .
두 모델 중 하나를 사용하면 효과의 본질에 대해 완전히 다른 가정을하고 있음을 의미합니다. 의 위에 (효과의 제어 ).
일반적으로 사람들은 첫 번째 모델에 적합합니다. 그런 다음 해당 모델의 잔차를 과 교대로. 잔차가 잔차에 2 차 패턴을 나타내는 경우 그리고 / 또는 , 모델에 따라 모델을 보강 할 수 있습니다. 그리고 / 또는 (그리고 아마도 그들의 상호 작용).
일관성에 사용하는 표기법을 단순화하고 두 모델 모두에서 오류 용어를 명시 적으로 만들었습니다.