주요 효과를 포함하지 않고 모델에 양방향 상호 작용을 포함시키는 것이 유효한가요? 가설이 상호 작용에 관한 것이라면 여전히 주 효과를 포함해야합니까?
주요 효과를 포함하지 않고 모델에 양방향 상호 작용을 포함시키는 것이 유효한가요? 가설이 상호 작용에 관한 것이라면 여전히 주 효과를 포함해야합니까?
답변:
내 경험상, 고차 효과에 연결될 때 모델에 모든 저차 효과를 가질 필요가있을뿐만 아니라, 관련이없는 것처럼 보이는 주요 효과를 적절하게 모델링 (예 : 비선형 화)하는 것이 중요합니다. 관심있는 상호 작용의 요소. 과 사이의 상호 작용 이 과 의 주 효과를 위해 대기 상태 일 수 있기 때문 입니다. 상호 작용 은 변수가 생략되거나 비선형 (예 : 스플라인) 항이 생략 된 공선이므로 때때로 필요한 것 같습니다 .
당신은 그것이 유효한지 묻습니다. 설명을 통해 추가 분석 접근 방법을 제안 할 수있는 일반적인 예를 들어 보겠습니다.
교호 작용의 가장 간단한 예는 하나의 종속 변수 와 두 개의 독립 변수 , 형식을 가진 모델입니다.
함께 제로 기대를 구비하고, 매개 변수를 사용하여 임의의 용어 변수 및 . 동일한 모델의 대수적으로 동등한 표현이 있기 때문에 가까운 지 여부를 확인하는 것이 좋습니다.
(여기서 등).
그러나 이라고 가정 할만한 이유가있을 경우 오류 용어 흡수 할 수 있습니다 . 이것은 "순수한 상호 작용"을 제공 할뿐만 아니라 지속적인 용어없이 수행합니다. 이것은 대수를 취할 것을 강력하게 제안합니다. 잔차의 일부 이분산성, 즉 더 큰 값과 연관된 잔차 가 평균보다 절대 값이 더 큰 경향 도이 방향을 가리킬 것입니다. 우리는 다음 대안 공식을 탐구하고 싶습니다
나는 이것이 필요하거나 심지어 유일한 단계라고 말하지는 않지만, 이런 종류의 대수적 재 배열은 상호 작용만으로도 중요해 보일 때마다 고려할 가치가 있다고 제안하고있다.
Tukey의 EDA 10-13 장에 상호 작용이있는 모델, 특히 2 ~ 3 개의 독립 변수가있는 훌륭한 방법을 제시합니다 .
교과서에는 종종 해당 주 효과가없는 모델에서 상호 작용을 포함해서는 안된다고 언급되어 있지만, 이것이 완벽하게 이해 될 수있는 예가 있습니다. 제가 상상할 수있는 가장 간단한 예를 알려 드리겠습니다.
두 그룹에 무작위로 배정 된 대상이 기준선에서 한 번 (즉, 무작위 화 직후) 및 그룹 T 후에 어떤 종류의 치료를받은 후에 한 번 두 번 측정되었다고 가정하지만 그룹 C는 그렇지 않습니다. 그런 다음이 데이터에 대한 반복 측정 모델에는 측정 기회에 대한 주요 효과 (기준선의 경우 0, 후속 조치의 경우 1 인 더미 변수)와 그룹 더미 (C의 경우 0, T의 경우 1)의 교호 작용 항이 포함됩니다. )와 시간 더미.
그런 다음 모델 차단은 기준에있는 대상의 평균 점수를 추정합니다 (그룹에 관계없이). 측정 기회 더미에 대한 계수는 기준선과 후속 조치 사이의 제어 그룹 변경을 나타냅니다. 상호 작용 항에 대한 계수는 대조군과 비교하여 치료군에서 변화가 얼마나 더 크거나 작은지를 나타냅니다.
여기서, 기준선에서 그룹은 무작위 화로 인해 정의에 의해 동등하므로 그룹에 대한 주 효과를 포함 할 필요는 없다.
물론 그룹에 대한 주 효과가 여전히 포함되어야한다고 주장 할 수 있으며, 따라서 무작위 화에 실패한 경우 분석에 의해 밝혀 질 것입니다. 그러나 이는 두 그룹의 기준 수단을 서로 테스트하는 것과 같습니다. 그리고 무작위 연구에서 기준선 차이에 대한 테스트에 눈살을 찌푸리는 사람들이 많이 있습니다.
모델에서 주요 효과를 유지하는 이유는 식별 가능성 때문입니다. 따라서 각 효과에 대한 통계적 추론이 목적이라면 모형의 주 효과를 유지해야합니다. 그러나 모델링 목적이 새로운 값을 예측하기위한 것일 경우 예측 정확도를 향상시키는 경우에만 상호 작용 만 포함하는 것이 합법적입니다.
이것은 다른 사람들이 많은 답변에 암시하지만 간단한 요점은 제품 용어가있는 모델이지만 중재자 및 예측 변수가없는 모델은 다른 모델이라는 것입니다. 그림 밖으로 각 수단이 무엇인지 는 모델링 과정을 제공하고 모델 여부 w 운영자 및 예측을하게 O를 더 이해는 이론이나 가설을 부여 /. 제품 용어는 중요하지만 인 관찰 만 사회자 및 예측 인자의 납득 설명 당신에게 / OA w (어쩌면 당신이 "의미"주변에 낚시하는 것을 제외하고) 아무 말도하지 않습니다 포함되지 않은 경우 이유 는 그들을 떠나 의미가 있습니다 .
아마도 그것은 모델을 사용하는 것에 달려 있습니다. 그러나 가설이 단지 상호 작용에 관한 경우에도 주요 효과가있는 모델을 실행하고 설명하지 않는 이유는 결코 보지 못했습니다.
나는이 책에서 단락 빌려 STATA를 사용하여 생존 분석에 대한 소개 로 M.Cleves이 R.Gutierrez는 W.Gould, Y.Marchenko 에 의해 편집 STATA 기자가 질문에 대답하기를.
해당 주 효과가 포함 된 경우에만 상호 작용 효과가 모델에 포함되어야한다는 것이 일반적이지만, 상호 작용 효과를 자체적으로 포함하는 데 아무런 문제가 없습니다. [...] 연구원의 목표는 처방전을 따르는 것이 아니라 당면한 문제를 고려하여 데이터에 대해 합리적으로 사실 일 가능성이있는 것을 매개 변수화하는 것입니다.
x 와 y 는 모두 xy 와 상관 관계가 있습니다 (중심을 사용하여이를 방지하기 위해 특정 조치를 취하지 않은 경우). 따라서 접근 방식으로 실질적인 상호 작용 효과를 얻으면 상호 작용으로 가장하는 하나 이상의 주요 효과에 해당 할 수 있습니다. 이것은 명확하고 해석 가능한 결과를 낳지 않을 것입니다. 대신에 x , y 및 (바람직하게는 후속 단계에서) xy 를 포함하여 상호 작용이 주요 효과의 역할을 얼마나 설명 할 수 있는지를 보는 것이 바람직 합니다.
용어에 관해서는, 그렇습니다. β 0은 "일정한"이라고합니다. 반면에 "부분"은 회귀에서 특정 의미를 가지므로 여기서는이 용어를 사용하여 전략을 설명하지 않습니다.
나는 그것이 모델 불확실성의 특별한 경우라고 제안 할 것이다. 베이지안 관점에서, 당신은 단순히 다음과 같은 방법으로 다른 종류의 불확실성을 처리하는 것과 같은 방식으로 이것을 취급합니다.
그리고 당신은 가 m 번째 모델에서 가정의 "조건부 결론"이라는 것을 알 수 있습니다 (이것은 일반적으로 선택된 "최상의"모델에 대해 고려되는 모든 것입니다) ). 이 표준 분석은 "분명히 최고"모델 일 때마다 또는 -모든 모델은 동일 / 유사한 결론을 제공합니다. 그러나 Bayes 'Theorem은 두 가지 모두 충족되지 않으면 결과를 평균화하여 데이터와 사전 정보가 가장 많이 지원하는 모델에 더 높은 가중치를 부여하는 것이 가장 좋습니다.
본질적으로 상호 작용 효과와 관련 법칙을 포함하는 다양한 프로세스가 있습니다. 예를 들어 옴의 법칙. 예를 들어 심리학에서는 Vroom (1964)의 성능 모델 : Performance = Ability x Motivation이 있습니다.이 법이 참일 때 중요한 상호 작용 효과를 기대할 수 있습니다. 유감스럽게도, 이것은 사실이 아닙니다. 두 가지 주요 효과와 무의미한 상호 작용 효과를 찾는 것으로 쉽게 끝날 수 있습니다 (시연 및 추가 설명은 Landsheer, van den Wittenboer 및 Maassen (2006), Social Science Research 35, 274-294 참조). 선형 모델은 상호 작용 효과를 탐지하는 데 적합하지 않습니다. 옴은 선형 모델을 사용했을 때 법을 찾지 못했습니다.
결과적으로 선형 모델에서 상호 작용 효과를 해석하는 것은 어렵습니다. 상호 작용 효과를 예측하는 이론이있는 경우 중요하지 않은 경우에도이를 포함시켜야합니다. 이론에서 제외하면 주 효과를 무시하고 싶을 수도 있지만, 곱셈 효과 만있는 진정한 데이터 생성 메커니즘의 경우 중요한 주 효과가 종종 발견되므로 어렵습니다.
내 대답은 다음과 같습니다. 그렇습니다. 주요 효과를 포함하지 않고 모델에 양방향 상호 작용을 포함하는 것이 유효 할 수 있습니다. 선형 모델은 다양한 데이터 생성 메커니즘의 결과를 근사화하는 데 유용한 도구이지만 수식을 데이터 생성 메커니즘에 대한 올바른 설명으로 쉽게 해석 할 수는 없습니다.
이것은 까다 롭고 마지막 프로젝트에서 나에게 일어났다. 나는 이것을 이렇게 설명 할 것입니다 : 변수 A와 B가 독립적으로 중요하게 나타 났으며 비즈니스 감각으로 A와 B의 상호 작용이 좋다고 생각했다고 가정 해 봅시다. 중요한 것으로 드러난 상호 작용을 포함 시켰지만 B는 그 중요성을 잃었습니다. 처음에는 두 가지 결과를 표시하여 모델을 설명합니다. 결과는 처음에 B가 유의했지만 A에 비추어 볼 때 광채를 잃어 버렸다는 것을 보여줍니다. 따라서 B는 좋은 변수이지만 다양한 수준의 A에 비추어 볼 때만 가능합니다 (A가 범주 형 변수 인 경우). 마치 SEAL 군대에 비추어 볼 때 오바마가 훌륭한 지도자라고 말하는 것과 같습니다. 따라서 Obama * seal은 중요한 변수가 될 것입니다. 그러나 오바마만으로는 중요하지 않을 수 있습니다. (오바마에 대한 위반은 없으며 단지 예일뿐입니다.)
주요 효과없이 양방향 상호 작용을 포함하는 것이 유효한가요?
예, 유효하고 필요할 수도 있습니다. 예를 들어 2의 경우 주 효과 요인 (파란색과 빨간색의 평균 차이)을 포함하면 모형이 더 나빠질 수 있습니다.
가설이 상호 작용에 관한 것이라면 여전히 주 효과를 포함해야합니까?
귀하의 가설은 주요 효과와 무관하게 사실 일 수 있습니다. 그러나 모델은 기본 프로세스를 가장 잘 설명하기 위해 필요할 수 있습니다. 그렇습니다.
참고 : "연속"독립 변수 (예제 측정)의 코드를 가운데에 배치해야합니다. 그렇지 않으면 모델의 교호 작용 계수가 대칭 적으로 분포되지 않습니다 (이 예에서는 첫 번째 측정에 대한 계수가 없음).
문제가되는 변수가 범주 형인 경우 주 효과없이 상호 작용을 포함시키는 것은 모델의 매개 변수 화일 뿐이며 매개 변수화의 선택은 모델로 수행하려는 대상에 따라 다릅니다. 연속 변수를 다른 연속 변수와 상호 작용하거나 범주 형 변수와 상호 작용하는 것은 완전히 다른 이야기입니다. 참조 : UCLA의 디지털 연구 및 교육 연구소에서이 FAQ를 참조 하십시오.
예, 이것은 드물지만 유효 할 수 있습니다. 그러나이 경우에도 여전히 주요 효과를 모델링해야하며,이 효과는 나중에 퇴보하게됩니다.
실제로 일부 모델에서는 약물 테스트 / 임상 모델과 같은 상호 작용 만 흥미 롭습니다. 이것은 예를 들어 gPPI (Generalized PsychoPhysiological Interactions) 모델의 기초입니다. y = ax + bxh + ch
여기서 x/y
복셀 / 관심 영역 및 h
블록 / 이벤트 디자인이 있습니다.
이 모델에서, 모두 a
와 c
아웃 회귀 될은 단지 b
유추 (베타 계수) 동안 유지 될 것이다. 사실, 모두 a
와 c
우리의 경우 가짜 활동을 나타내며, 단지 b
가짜 활동, 업무와의 상호 작용에 의해 설명 될 수없는 것을 나타냅니다.
짧은 대답 : 고정 효과에 상호 작용을 포함하면 코드에 구체적 으로 포함 하는지 여부에 관계없이 주요 효과가 자동으로 포함됩니다 . 유일한 차이점은 매개 변수화, 즉 모델의 매개 변수가 의미하는 것입니다 (예 : 그룹화 또는 참조 수준과의 차이).
가정 : 나는 우리가 일반적인 선형 모델에서 일하고 있으며 대신 고정 효과 사양 를 사용할 수 있는지 묻고 있다고 가정합니다. 여기서 와 는 (범주) 요인입니다.
수학적 설명 : 응답 벡터 합니다. 경우 , 및 세 가지 요소에 대한 설계 행렬은, 다음 "주 효과 및 상호 작용"을 가진 모델은 제한에 해당하는 스팬 . "상호 작용 만"인 모델은 span 제한에 해당합니다 . 그러나 span span 입니다. 따라서 동일한 모델 의 두 가지 다른 매개 변수입니다. (또는 해당 용어에 더 익숙한 경우 동일한 배포 그룹).
나는 David Beede가 매우 유사한 대답을 제공한다는 것을 보았습니다.