상호 작용이 회귀에서 직접 효과를 없애면 어떻게됩니까?

25

회귀에서 교호 작용 항은 관련된 직접 효과를 모두 제거합니다. 상호 작용을 삭제하거나 결과를보고합니까? 상호 작용은 원래 가설의 일부가 아니 었습니다.

regression interaction

— 젠
소스

6

실험 설계, 연구 질문 및 통계 모델에 대한 자세한 정보를 제공하면 더 나은 답변을 얻을 수 있습니다.

— David LeBauer

설문 조사 데이터 v1 및 v2가 예상대로 결과를 예측합니다. 그러나 v1 (dichotomous)과 v2 (5 groups) 간의 상호 작용은 중요하지 않으며 내 질문에 따라 v1 및 v2 직접 효과도 중요하지 않습니다. 문헌에서 이것을보고하는 예를 찾을 수 없습니다.

— Jen

v1 : v2 상호 작용이 중요하지 않은 경우 모델에 포함시켜야합니까?

— Christopher Aden

이 질문이 관련이 있습니까? stats.stackexchange.com/questions/5184/…

— Glen

또 다른 가능성은 역설적 혼란이다. 예 1 : epm.sagepub.com/content/56/3/430.abstract 예 2 : 최적 prediction.com/files/pdf/V1A19.pdf

— user31256

24

나는 이것이 까다 롭다고 생각한다. 암시 하듯이 여기에는 '도덕적 위험'이 있습니다. 만약 당신이 전혀 상호 작용을 보지 않았다면 자유롭고 분명 할 것입니다. 그러나 당신이 그것을 떨어 뜨릴 경우 데이터 제거에 대한 의혹이 생겼습니다.

핵심은 아마 당신이에서 갈 때 주요 효과 전용 상호 작용 모델에 효과의 의미의 변화. '주요 효과'를 얻는 것은 치료법과 대조가 어떻게 코딩되는지에 달려 있습니다. R에서 기본값은 처리량을 기준 수준으로 첫 번째 요인 수준 (이름이 알파벳 순서로 다르게 표시되지 않는 한 알파벳순으로)과 대조되는 것입니다.

각 요소에 대해 '제어'와 'trt'의 두 가지 수준이 있다고 간단하게 말하십시오. 상호 작용이없는 경우, 'v1.trt'매개 변수의 의미 (R에서 기본값으로 처리 대조를 가정)는 " 'v1.control'과 'v1.trt'그룹의 평균 차이"입니다. 'v2.trt'매개 변수의 의미는 " 'v2.control'과 'v2.trt'의 평균 차이"입니다.

상호 작용에서 'v1.trt'는 'v2.control'그룹의 'v1.control' 과 'v1.trt'의 평균 차이이며, 마찬가지로 'v2.trt'는 'v1.control'그룹. 따라서 각 통제 그룹에서 치료 효과가 상당히 적지 만 처리 그룹에서 효과가 클 경우보고있는 것을 쉽게 볼 수 있습니다.

그러나 중요한 상호 작용 용어 없이이 문제가 발생하는 것을 볼 수있는 유일한 방법 은 모든 효과가 상당히 약한 경우입니다 (따라서 "효과가 사라졌다"는 의미는 p = 0.06에서 p = 0.04로 바뀌는 것입니다. 마법의 의미를 넘어서).

또 다른 가능성은 '너무 많은 자유도를 사용하는 것'입니다. 즉, 모수 추정치가 실제로 그렇게 많이 변경되지는 않지만 나머지 오차 항은 다른 4 [= (2- 1) * (5-1)] 매개 변수는 유의미한 용어가 중요하지 않게됩니다. 다시 말하지만, 작은 데이터 세트 / 상대적으로 약한 영향으로 만 이것을 기대합니다.

가능한 한 가지 해결책은 명암 대비로 이동하는 것입니다.이 또한 섬세하지만, '평균 효과'가 귀하의 경우에 의미가 있음을 확신해야합니다. 가장 좋은 방법은 데이터를 플로팅하고 계수를보고 추정 된 모수와 관련하여 무슨 일이 일어나고 있는지 이해하는 것입니다.

희망이 도움이됩니다.

— 벤 볼커
소스

4

도덕적 위험은 없습니다. 상호 작용이 포함 된 주 효과의 계산은이를 포함하지 않는 계산과는 상당히 다릅니다. 주요 효과를보고하기 위해 가산 모델을 수행 한 다음 상호 작용을 별도의 모델에 포함시켜야합니다. 교호 작용이 포함 된 모형의 주 효과는 실제로 주 효과가 아니기 때문에 다른 예측 변수의 특정 수준 (교호 작용 포함)에 영향을 미치기 때문에 교호 작용을 포함하는 주 효과를 무시합니다.

— John

John : 그 논리에 의해, 2 차 상호 작용 / 조정 효과 (즉, (1) 주 효과, (2) 주 효과 사이의 상호 작용, 및 3 차 2 차항 포함)를 평가하는 모델의 상호 작용 항도 무시합니다. 주요 효과 중 하나와 곡선 상호 작용 효과 (중재))?

— Bento

11

변수가 제대로 표현 되었습니까? 두 개의 독립 변수 과 고려하십시오 . 문제 진술은 당신이 양식에 잘 적응하고 있다고 주장합니다. $X_1$ $X_2$

와이 = β_{0} + β_{12} {엑스}_{1} {엑스}_{2} + ϵ

$Y = \beta_0 + \beta_{12} X_1 X_2 + \epsilon$

의 잔차 분산이 증가한다는 증거가있는 경우 더 나은 모형은 곱셈 오차를 사용합니다. $Y$

와이 = β_{0} + (β_{12} {엑스}_{1} {엑스}_{2}) δ

$Y = \beta_0 + \left( \beta_{12} X_1 X_2 \right) \delta$

이것은 다시 쓸 수 있습니다

로그 (와이 - β_{0}) = 로그 (β_{12}) + 로그 ({엑스}_{1}) + 로그 ({엑스}_{2}) + 로그 (δ);

$\log(Y - \beta_0) = \log(\beta_{12}) + \log(X_1) + \log(X_2) + \log(\delta);$

즉, 형식으로 변수를 다시 표현하면

\begin{aligned} η = & 로그 (와이 - β_{0}) \\ ξ_{1} = & 로그 ({엑스}_{1}) \\ ξ_{2} = & 로그 ({엑스}_{2}) \\ ζ = & 로그 (δ) \sim 엔 (0, σ^{2}) \end{aligned}

$\eqalign{ \eta =& \log(Y - \beta_0) \cr \xi_1 =& \log(X_1)\cr \xi_2 =& \log(X_2)\cr \zeta =& \log(\delta) \sim N(0, \sigma^2) }$

그런 다음 모델은 선형이며 균일 잔차가있을 수 있습니다.

η = γ_{0} + γ_{1} ξ_{1} + γ_{2} ξ_{2} + ζ,

$\eta = \gamma_0 + \gamma_1 \xi_1 + \gamma_2 \xi_2 + \zeta,$

그리고 그것은 너무 발생할 수 있습니다 그 및 일에 모두 가깝습니다. $\gamma_1$ $\gamma_2$

의 값은 탐색 적 데이터 분석 의 표준 방법을 통해 발견 되거나 때로는 변수의 특성으로 표시됩니다. (예를 들어, 얻을 수있는 이론상 최소값 일 수 있습니다 .) $\beta_0$ $Y$

또는 이 양수이고 데이터 크기 내에서 크기 조정 가능하지만 가 작다고 가정합니다. 그런 다음 원래 맞춤을 다음과 같이 다시 표현할 수 있습니다. $\beta_0$ $\sqrt{\beta_0}$

와이 = (θ_{1} + {엑스}_{1}) (θ_{2} + {엑스}_{2}) + ϵ

$Y = (\theta_1 + X_1) (\theta_2 + X_2) + \epsilon$

여기서 이며 과 는 모두 작습니다. 여기서 누락 된 교차 항 및 은 오류 항 내에 포함되기에 충분히 작은 것으로 간주 됩니다. 다시 곱셈 오류를 가정하고 로그를 취하면 직접 효과 만 있고 상호 작용이없는 모델 이 제공됩니다. $\theta_1 \theta_2 = \beta_0$ $\theta_1$ $\theta_2$ $\theta_1 X_2$ $\theta_2 X_1$ $\epsilon$

이 분석은 일부 응용 프로그램 에서조차도 유일한 효과가 상호 작용으로 보이는 모델을 가질 수있는 방법을 보여줍니다. 변수 (독립, 종속 또는 둘 다)가 적합하지 않은 형태로 제시되고 해당 로그가 모델링에 더 효과적인 대상인 경우에 발생합니다. 변수와 초기 잔차의 분포는 이것이 사실인지 여부를 결정하는 데 필요한 단서를 제공합니다. 변수의 비대칭 분포와 잔차의 이분산성 (구체적으로 예측 된 값에 대략 비례하는 편차가 있음)이 지표입니다.

— 우버
소스

흠. 이것은 모두 내 솔루션보다 그럴듯하지만 더 복잡해 보입니다 (원래 질문에 대한 의견은 예측 변수가 모두 범주적임을 암시합니다). 그러나 평소와 같이 대답은 "데이터보기"(또는 잔차)입니다.

— Ben Bolker

1

@Ben 나는 동의하지만, 회귀 운동에는 일 변량 분포 분석과 잔차에 대한 사후 분석이 필수적이기 때문에 "더 복잡한"에 대한 인식이 어디에서 오는지 이해하지 못한다. 여기에 필요한 추가 작업은 이러한 분석의 의미에 대해 생각하는 것입니다.

— whuber

1

아마도 "더 복잡한"이라는 의미 일뿐입니다. "내 경험상, 내가 대답에서 언급 한 문제 (대비 코딩)가 당신이 언급 한 것보다 더 자주 발생하는 것을 보았습니다. 세상이 아닌 내가 함께 일하는 데이터 / 사람의 종류에 대한 진술.

— Ben Bolker

5

두 개의 정량적 예측 변수가있는 규칙적인 다중 회귀 분석에서 상호 작용을 포함하여 관찰 방식의 제품을 추가 예측 변수로 포함한다는 의미는 다음과 같습니다. $Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \beta_3 (X_1 \cdot X_2) = (b_0 + b_2 X_2) + (b_1 + b_3 X_2) X_1$

이것은 제품이 원래의 두 변수와 강하게 상관되기 때문에 일반적으로 높은 다중 공선 성을 유발합니다. 다중 공선 성을 사용하면 개별 모수 추정값은 귀하의 경우와 같이 다른 변수가 고려되는 것에 크게 의존합니다. 대응책으로, 변수를 중심에두면 상호 작용이 고려 될 때 종종 다중 공선 성이 줄어 듭니다.

범주 형 예측 변수가있는 것처럼 보이지만 "ANOVA"대신 "회귀"라는 용어를 사용하므로 이것이 귀하의 사건에 직접 적용되는지 확실하지 않습니다. 물론 후자의 경우는 본질적으로 동일한 모델이지만 Ben이 설명한대로 대비 코딩 체계를 선택한 후에 만 가능합니다.

— 스라소니
소스

5

이것은 해석의 문제, 소위 "직접 효과"계수가 실제로 무엇인지에 대한 오해 일 수 있습니다.

연속 예측 변수가 있고 상호 작용 항이없는 회귀 모형 (즉, 다른 항의 곱으로 구성된 항이 없음)에서 각 변수의 계수는 해당 변수 방향으로 회귀 표면의 기울기입니다. 변수의 값에 관계없이 일정하며 해당 변수의 효과를 나타내는 척도입니다.

교호 작용이있는 모형, 즉 다른 항의 곱으로 구성된 항의 경우 교호 작용에 포함 되지 않은 변수에 대해서만 추가 검증없이 해석 할 수 있습니다 . 가변 계수 되고 상호 작용에 관여는 가변 방향으로의 회귀 표면의 기울기 문제가 제로의 변수와 상호 작용하는 모든 변수의 값이 있다고 할 때 , 상기 계수의 중요성 테스트를 지칭 예측 자 공간의 해당 영역에서만 회귀 표면의 기울기. 공간의 해당 영역에 실제로 데이터가있을 필요는 없기 때문에, 명백한 직접 효과 계수는 데이터가 실제로 관찰 된 예측 자 공간의 영역에서 회귀 표면의 기울기와 거의 유사하지 않을 수 있습니다. 이러한 경우에는 진정한 "직접적인 효과"가 없습니다. 가장 좋은 대안은 아마도 "평균 효과"일 것입니다. 각 데이터 포인트에서 취해 모든 데이터 포인트에 대해 평균을 구한 변수 방향으로 회귀 표면의 기울기. 이에 대한 자세한 내용은 독립 변수의 중심을 조정하여 주요 효과를 조정할 수있는 이유는 무엇입니까?를 참조하십시오 .

— 레이 쿠프 만
소스