선형 회귀 분석에서 왜 상호 작용 항에만 관심이있을 때 2 차 항을 포함해야합니까?


10

에 대한 선형 회귀 모델에 관심이 있다고 가정 합니다. 두 공변량 간의 상호 작용이 Y에 영향을 미치는지 확인하고 싶습니다.

Yi=β0+β1x1+β2x2+β3x1x2

교수 과정 노트 (내가 연락하지 않은 사람)에는 다음과 같이 명시되어 있습니다. 즉, 가 회귀에 포함되어야합니다.

Yi=β0+β1x1+β2x2+β3x1x2+β4x12+β5x22

상호 작용에만 관심이있을 때 왜 2 차 용어를 포함시켜야합니까?


7
모델에 x_1x_2 가 있으면 x_1x_2x1x2 가 포함되어야합니다 . 그러나 x_1 ^ 2x_2 ^ 2 는 선택 사항입니다. x1x2x12x22
user158565

6
교수님의 의견은 이례적인 것 같습니다. "반드시"는 보편적 인 요구 사항이 아니기 때문에 전문적인 배경이나 경험 세트에서 비롯 될 수 있습니다. stats.stackexchange.com/questions/11009흥미로울 수 있습니다 .
whuber

@ user158565 안녕! 왜 과 도 포함시켜야하는지 물어봐도 될까요? 나는 원래 그것을 생각하지 않았지만 이제는 당신이 그것을 언급했습니다 ..! x1x2
fool126

@whuber 안녕! 링크 주셔서 감사합니다! 주요 효과를 포함시키는 것이 합리적이라고 생각하지만 2 차 항을 포함하도록 확장하는 데 어려움이 있습니다. // user158565 위의 링크가 이에 대한 답변이라고 생각합니다. 감사합니다.
fool126

데이터에 대한 링크를 게시 하시겠습니까?
James Phillips

답변:


8

추론의 목표에 달려 있습니다. 예를 들어, 인과적인 맥락에서 (또는 더 일반적으로 상호 작용 계수를 해석하려는 경우) 상호 작용이 있는지 여부를 추론하려는 경우 교수의이 권장 사항이 의미가 있으며 기능적 형태의 잘못이 상호 작용에 대한 잘못된 추론으로 이어질 수 있다는 사실 .

다음은 의 구조 방정식에서 과 사이에 작용 항이없는 간단한 예입니다. 그러나 의 2 차 항을 포함하지 않으면 이 와 실제로 상호 작용 한다고 결론을 내릴 수 있습니다. 티.x1x2yx1x1x2

set.seed(10)
n <- 1e3
x1 <- rnorm(n)
x2 <- x1 + rnorm(n)
y <- x1 + x2 + x1^2 + rnorm(n)
summary(lm(y ~ x1 + x2 + x1:x2))

Call:
lm(formula = y ~ x1 + x2 + x1:x2)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.7781 -0.8326 -0.0806  0.7598  7.7929 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.30116    0.04813   6.257 5.81e-10 ***
x1           1.03142    0.05888  17.519  < 2e-16 ***
x2           1.01806    0.03971  25.638  < 2e-16 ***
x1:x2        0.63939    0.02390  26.757  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.308 on 996 degrees of freedom
Multiple R-squared:  0.7935,    Adjusted R-squared:  0.7929 
F-statistic:  1276 on 3 and 996 DF,  p-value: < 2.2e-16

이것은 단순히 변수 바이어스가 생략 된 경우로 해석 될 수 있으며 여기서 는 생략 된 변수입니다. 되돌아 가서 회귀에 제곱 항을 포함 시키면 겉보기 상호 작용이 사라집니다.x12

summary(lm(y ~ x1 + x2 + x1:x2 + I(x1^2)))   

Call:
lm(formula = y ~ x1 + x2 + x1:x2 + I(x1^2))

Residuals:
    Min      1Q  Median      3Q     Max 
-3.4574 -0.7073  0.0228  0.6723  3.7135 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.0419958  0.0398423  -1.054    0.292    
x1           1.0296642  0.0458586  22.453   <2e-16 ***
x2           1.0017625  0.0309367  32.381   <2e-16 ***
I(x1^2)      1.0196002  0.0400940  25.430   <2e-16 ***
x1:x2       -0.0006889  0.0313045  -0.022    0.982    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.019 on 995 degrees of freedom
Multiple R-squared:  0.8748,    Adjusted R-squared:  0.8743 
F-statistic:  1739 on 4 and 995 DF,  p-value: < 2.2e-16

물론,이 추론은 2 차 용어뿐만 아니라 일반적으로 기능 형태의 잘못된 지정에 적용됩니다. 여기서 목표는 상호 작용을 평가하기 위해 조건부 기대 함수를 적절하게 모델링하는 것입니다. 선형 회귀를 사용한 모델링으로 자신을 제한하는 경우 이러한 비선형 항을 수동으로 포함해야합니다. 그러나 대안은 예를 들어 커널 릿지 회귀 와 같은보다 유연한 회귀 모델링을 사용하는 것입니다 .


@CarlosCinelli에게 감사드립니다. 결론적으로, 함수형의 잘못된 설명을 설명하기 위해 같은 정도의 용어를 포함시켜야하며 회귀 분석에서 어떤 용어가 중요한지를 결정하게 하시겠습니까?
fool126

3
@KevinC 여기서 주요 질문은 : 당신은 상호 작용 용어를 해석 하시겠습니까? 그렇다면 기능 양식의 잘못된 사양이 실제 문제입니다. 이차 항을 추가하는 것은 비선형 성을 캡처하는 간단한 방법 중 하나이지만 일반적인 문제는 조건부 기대 함수를 적절하게 모델링하는 것입니다.
카를로스시 넬리

1
rm(list=ls())여기에 게시 된 코드에 포함시키지 마십시오 ! 사람들이 코드를 복사하여 붙여 넣고 실행하면 놀랍게 될 수 있습니다 ... 지금은 그것을 제거했습니다.
kjetil b halvorsen

3

당신이 당신의 대답에 나와있는 두 모델은 명확하게하기 위해 다시 표현 될 수있는 방법 의 효과를X1 에 의존하는 것으로 가정 X2 각 모델에서 (또는 다른 방법으로).

첫 번째 모델은 다음과 같이 다시 표현 될 수 있습니다.

Y=β0+(β1+β3X2)X1+β2X2+ϵ,

이 모델에서 엑스1 에 선형 효과가 있다고 가정 와이 (효과의 제어 엑스2) 그러나이 선형 효과의 크기- 엑스1 -함수에 따라 선형으로 변경 엑스2. 예를 들어엑스1 의 위에 와이 의 값으로 크기가 증가 할 수 있습니다 엑스2 증가하다.

두 번째 모델은 다음과 같이 다시 표현 될 수 있습니다.

와이=β0+(β1+β엑스2)엑스1+β4엑스12+β2엑스2+β5엑스22+ϵ,

이 모델에서 엑스1 의 위에 와이 (효과의 제어 엑스2)는 선형이 아니라 2 차로 가정합니다. 이 이차 효과는 두 가지를 모두 포함하여 캡처됩니다엑스1엑스12모델에서. 계수는엑스12 독립적 인 것으로 가정 엑스2, 계수 엑스1 선형 적으로 의존하는 것으로 가정 엑스2.

두 모델 중 하나를 사용하면 효과의 본질에 대해 완전히 다른 가정을하고 있음을 의미합니다. 엑스1 의 위에 와이 (효과의 제어 엑스2).

일반적으로 사람들은 첫 번째 모델에 적합합니다. 그런 다음 해당 모델의 잔차를엑스1엑스2교대로. 잔차가 잔차에 2 차 패턴을 나타내는 경우엑스1 그리고 / 또는 엑스2, 모델에 따라 모델을 보강 할 수 있습니다. 엑스12 그리고 / 또는 엑스22 (그리고 아마도 그들의 상호 작용).

일관성에 사용하는 표기법을 단순화하고 두 모델 모두에서 오류 용어를 명시 적으로 만들었습니다.


2
안녕하세요 @IsabellaGhement, 설명 주셔서 감사합니다. 요약하면, 상호 작용 항을 포함하는 경우 2 차 항을 추가해야한다는 "규칙"이 없습니다. 하루가 끝나면 모델에 대한 가정과 분석 결과 (잔류 그림)로 돌아갑니다. 이 올바른지? 다시 감사합니다 :)!
fool126

2
맞아, 케빈! 각 데이터 세트가 다르고 다른 질문에 대답하기 때문에 "규칙"이 없습니다. 그렇기 때문에 해당 데이터 세트에 적합한 각 모델이 다른 가정을 암시한다는 사실을 알아야합니다. 모델 결과를 신뢰하려면 데이터가 지원해야합니다. 모형 진단 도표 (예 : 잔차 대 적합치 도표)는 데이터가 모형 가정을 지원하는 정도를 검증하는 데 도움이됩니다.
Isabella Ghement

1
@ 케빈 : 좋아요! 즐거운 휴일 되세요, 케빈! ☃🎉🎁🎈
Isabella Ghement
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.