회귀 모델에서 모든 교호 작용 항에 개별 항이 필요합니까?


68

저자가 실제로 5-6 개의 로짓 회귀 모델을 AIC와 비교하는 원고를 검토하고 있습니다. 그러나 일부 모형에는 개별 공변량 항을 포함하지 않고 교호 작용 항이 있습니다. 이렇게하는 것이 이치에 맞습니까?

예를 들어 (로짓 모델에만 해당되지 않음) :

M1: Y = X1 + X2 + X1*X2
M2: Y = X1 + X2
M3: Y = X1 + X1*X2 (missing X2)
M4: Y = X2 + X1*X2 (missing X1)
M5: Y = X1*X2 (missing X1 & X2)

나는 항상 당신이 X1 * X2라는 상호 작용 항을 가지고 있다면 X1 + X2가 필요하다는 인상을 받았습니다. 따라서 모델 1과 2는 문제가 없지만 모델 3-5는 문제가 될 수 있습니다 (AIC가 낮더라도). 이 올바른지? 규칙 이상입니까? 누구든지 이것에 대한 추론을 설명하는 좋은 참고 자료가 있습니까? 리뷰에서 중요한 것을 잘못 전달하지 않기를 원합니다.

모든 의견에 감사드립니다, Dan


8
+1, 나는 이것이 정말로 좋은 질문이라고 생각합니다. 당신은 또한 같은 영역의 많은 부분을 다루는 이 초기 질문 을 확인하고 싶을 수도 있습니다 . 거기에 대한 답변도 정말 훌륭합니다.
gung

좋은 답변이 많이 있습니다. 주요 효과가 필요 하지 않은 경우 에 Rindskopf논문이있었습니다 . (또한 이것을 보십시오 )
Peter Flom

3
R의 lm ()에서 AFAIK :는 :A : B와 같은 상호 작용을위한 것입니다. 그리고 *주요 효과와 상호 작용을위한 것이므로 A * B = A + B + A : B입니다. 논문의 저자가이 표기법을 따른다면, 어떤 모델에도 주요 효과가 빠져 있다고 생각하지 않습니까?
Zhubarb

또한 현재 답변에서와 동일한 논리가 고차 상호 작용에 적용됩니다 (예 : 3 가지 방법을 포함하는 경우 양방향 상호 작용이 모두 필요함)
Peter Flom

답변:


38

대부분의 경우 이것은 나쁜 생각입니다. 주된 이유는 더 이상 모델을 위치 이동에 변하지 않게하기 때문입니다. 예를 들어 단일 결과 와 예측 변수 x iz i가 있고 모형을 지정 한다고 가정합니다 .와이나는엑스나는나는

와이나는=β0+β1엑스나는나는+ε

예측 변수를 평균으로 중심에두면 가됩니다.엑스나는나는

(엑스나는엑스¯)(나는¯)=엑스나는나는엑스나는¯나는엑스¯+엑스¯¯

따라서 주요 효과가 모델에 다시 도입되었음을 알 수 있습니다.

여기서 휴리스틱 논쟁을했지만 실제적인 문제가 있습니다. 114 페이지의 Faraway (2005) 에서 언급했듯이 , 주 효과가 모형에서 제외 될 때 규모의 가산 적 변화는 모형 추론을 변경하지만, 하위 차수가 포함 된 경우에는 발생하지 않습니다. 위치 이동과 같은 임의의 항목이 통계적 추론의 근본적인 변화 (따라서 조회의 결론)를 유발하는 것은 바람직하지 않습니다. 다항식 항 또는 차수가 낮은 차수 효과없이 모델에 포함되는 경우에 발생할 수 있습니다.

참고 : 에 특정 의미가 있거나 개별 변수 x i , z i가 아닌 제품 관찰하는 경우 에만 상호 작용 만 포함하려는 특수한 상황이있을 수 있습니다 . 그러나이 경우 예측 변수 a i = x i z i를 생각 하고 모형을 진행할 수 있습니다.엑스나는나는엑스나는,나는에이나는=엑스나는나는

와이나는=α0+α1ai+εi

오히려 생각보다 내가 상호 작용 용어로.에이나는


additive change in scale changes the inference (the t -statistics) for all but the highest order terms when any lower order terms are left out of the model예측 변수의 가산 적 변화는 일반적으로 전체 모형에서도 주 효과 (낮은 차수)의 t 를 변화시킵니다 . 보존되는 것은 전체적으로 적합 (R ^ 2)입니다 (그러나 일부 주요 효과가 감소 된 모델의 가산 적 변화에 따라 보존되지는 않습니다). 그게 당신이 말하고 싶습니까?
ttnphns 2014 년

예, 맞습니다. @ttnphns-지적 해 주셔서 감사합니다-이것을 반영하기 위해 내 대답을 약간 수정했습니다.
매크로

28

지금까지의 모든 대답은 매우 기본적인 요점을 놓친 것 같습니다. 선택한 기능 형태는 과학적으로 관련된 기능을 포착 할 수있을만큼 유연해야합니다. 모형 2-5는 과학적 근거없이 일부 항에 0 계수를 부과합니다. 과학적으로 정당화 되어도 Model 1은 0 계수를 강제하지 않고 테스트 할 수 있기 때문에 여전히 매력적입니다.

핵심은 제한의 의미를 이해하는 것입니다. 모델 3-5를 피하기위한 일반적인 권고는 대부분의 응용에서 그들이 부과하는 가정이 과학적으로 타당하지 않기 때문입니다. 모델 3은 X2가 기울기 dY / dX1에만 영향을 미치지 만 레벨에는 영향을 미치지 않는다고 가정합니다. 모델 4는 X1이 기울기 dY / dX2에만 영향을 미치지 만 레벨에는 영향을 미치지 않는다고 가정합니다. 그리고 Model 5는 X1도 X2도 레벨에 영향을 미치지 않지만 dY / dX1 또는 dY / dX2에만 영향을 준다고 가정합니다. 대부분의 응용에서 이러한 가정은 합리적이지 않습니다. 모델 2는 제로 계수를 부과하지만 여전히 장점이 있습니다. 그것은 대부분의 경우 과학적 목표를 만족시키는 데이터에 대한 최상의 선형 근사치를 제공합니다.


5
(+1) 이것은 사실이지만 원래 포스터는 저자가 모델 선택을 시도하는 상황을 설명하는 것처럼 보였고 일부 후보 모델은 상호 작용을 포함하지 않은 모델이므로 동기 부여는 AIC에 의해 주도되었습니다. 실질적인 것이 아니라 (항상 위험한 일이지만, 분명히 해냈습니다). 실질적인 무언가에 의해 인도 될 때, 모델 구조에 의해 지시되어야합니다. 그러나 통계 기준에 따라 안내 할 때 주된 효과를 제외하면 내 대답에 표시된 것처럼 나쁜 속성을 가질 수 있습니다.
매크로

16

@ 매크로 +1 범주 형 예측 변수가있을 때 염려되는 비슷한 점을 생각하겠습니다. 코딩 방법에 따라 많은 것이 가능합니다 . 예를 들어, 참조 셀 (일명 '더미') 코딩은 0 & 1을 사용하는 반면 효과 코딩은 -1, 0 & 1을 사용합니다. 각각 두 개의 레벨을 가진 두 가지 요인, 즉 간단한 사례를 고려하십시오.엑스1엑스2사용되는 코딩 방식에 따라 [0, 0, 0, 1] 또는 [1, -1, -1, 1] 일 수 있습니다. 상호 작용 만 하나의 코딩 체계에서는 '중요한'상황이지만 모든 용어는 다른 체계에서는 '중요한'상황이있을 수 있다고 생각합니다. 이는 의미있는 해석 적 결정이 실제로 사용자 모르게 소프트웨어가 사용자에게 제공 한 임의의 코딩 결정을 기반으로 결정됨을 의미합니다. 나는 이것이 작은 점이라는 것을 알고 있지만, 단지 상호 작용 만 유지하는 것이 좋지 않은 이유 중 하나입니다 (물론 p- 값을 기반으로 예측 변수의 하위 집합을 선택하지 않는 것이 좋습니다).


1
범주 형 주요 효과에 대한 유의성 검정은 변하지 않습니다. 그룹은 처리 코딩 하의 기준 그룹과 상당히 다를 수 있지만, 대조 코딩 하의 "대 평균"효과와는 다를 수 있습니다.
확률로

10

논문을 검토하고 있으므로 저자가 모델 계층 문제에 대해 논의하고 해당 모델에서 벗어난 것을 정당화 할 것을 제안 할 수 있습니다.

다음은 참고 문헌입니다.

  1. JA. 반응 표면 모델에서 항의 선택 – 약한 유전 원리는 얼마나 강합니까? 미국 통계 학자. 1998; 52 : 315-8. http://www.jstor.org/pss/2685433 . 2010 년 6 월 10 일에 액세스 함.

  2. 페이 소토 JL. 다항식 회귀 모형의 계층 변수 선택. 미국 통계 학자. 1987; 41 : 311-3. http://www.jstor.org/pss/2684752 . 2010 년 6 월 10 일에 액세스 함.

  3. 페이 소토 JL. 잘 구성된 다항식 회귀 모형의 특성입니다. 미국 통계 학자. 1990; 44 : 26–30. http://www.jstor.org/pss/2684952 . 2010 년 6 월 10 일에 액세스 함.

나는 보통 계층 구조를 따르지 만 어떤 상황에서는 계층 구조에서 출발합니다. 예를 들어, 여러 속도로 타이어 마모와 주행 거리를 테스트하는 경우 모델은 다음과 같습니다.

트레드 깊이 = 절편 + 주행 거리 + 주행 거리 * 속도

그러나 타이어가 속도가 0 마일인지 알 수 없기 때문에 속도의 주요 효과를 포함시키는 것은 물리적으로 의미가 없습니다.

(반면, "break-in"효과가 다른 속도에서 다름을 나타 내기 때문에 속도 효과를 테스트하고 싶을 수도 있습니다. 반면에, 침입을 처리하는 더 좋은 방법은 0에서 매우 낮은 마일리지로 데이터를 가져온 다음 비선형 성을 테스트하십시오. 절편을 제거하는 것은 계층 구조를 위반하는 특별한 경우로 생각할 수 있습니다.)

또한 누군가가 위에서 말한 내용이 매우 중요하기 때문에 반복해서 언급 할 것입니다. 저자는 소프트웨어가 데이터를 중심으로하고 있는지 여부를 확인해야합니다. 소프트웨어가 마일리지를 (마일리지-평균 마일리지)로 교체하면 위의 타이어 모델은 실제로 무의미합니다.

동일한 종류의 제약 안정성 연구와 관련이 있습니다 (접점 "순차 저장 안정성 모델", Emil M. Friedman 및 Sam C. Shum, AAPS PharmSciTech, Vol.12, No. 1, 2011 년 3 월, DOI : 10.1208 / s12249-010-9558-x).


1
감사합니다. 이것은 훌륭한 답변이며 통계적으로 정통하지 않은 사람들에게 설명하는 데 도움이됩니다.
djhocking

1
+1 SO에 대한 답변을 병합 할 수 있기를 바랍니다. 위의 승인 된 답변이 완벽한 답변을 형성합니다.
Zhubarb

9

나는 이것을 설명하는 실제 사례를 가지고있다. 데이터에서 변수 중 하나는 group0- 제어 및 1- 처리로 표시됩니다. 다른 예측자는 time period치료 전 0 및 치료 후 1로 나타내었다 . 상호 작용은 치료의 효과, 치료 그룹에서의 치료 후 차이가 대조군에서 측정 된 시간의 영향보다 큰 주요 관심 파라미터였다. 의 주요 효과group처리하기 전에 두 그룹의 차이를 측정 했으므로 쉽게 0이 될 수 있습니다 (무작위 실험에서는 0이어야 함). 두 번째 주요 효과는 치료가 없었던 대조군의 전후 기간 사이의 차이를 측정하므로 상호 작용 항이 0이 아닌 0 일 수도 있습니다. 물론 이것은 코드가 어떻게 코딩되고 다른 코딩이 의미를 변경하고 주요 효과없이 상호 작용이 의미가 있는지 여부에 달려 있습니다. 따라서 특정 경우에 주 효과가없는 상호 작용에 적합합니다.


그래서 그것은 모두 연구의 목표 또는 매개 변수를 기반으로한다는 것을 의미합니까?
Ben

1
@Ben은 변수를 매개 변수화하는 방법 (예 : 변수에 대해 0/1을 1/0로 전환하면 해석이 변경됨)과 대답하려는 질문 및 가정하려는 가정에 따라 다를 수 있습니다 .
Greg Snow

와이=0+1엑스+2+엑스2008 년+와이이자형에이아르 자형나는이자형에스
X & Z는 연속 변수이고 Z는 규제 등급입니다. 2008 년은 다른 해에 대해 1과 0을 받았습니다. 상호 작용없이 2008 년의 관측 만하는 것과 같습니다. 나는 약하고 강한 유전 원리에 대해 읽었지만 명확하게 이해하지 못했습니다
Ben

1
@Ben, 2008 년에는 상호 작용이 있다고 생각하지만 다른 연도에는 없다고 생각하는 위의 모델을 확실히 적용하는 것이 가능합니다. 이것에 대한 정당성이 있다면, 모델이 훌륭하다고 생각합니다. 그러나 이것은 아마도 모든 청중에게 이것을 정당화 할 필요가 있다고 생각할 정도로 충분하지 않은 가정입니다.
Greg Snow

1엑스
1엑스

7

피터에 동의합니다. 저는 그 규칙이 민속이라고 생각합니다. 왜 두 변수가 상호 작용으로 인해 모델에만 영향을 미치는 상황을 생각할 수 있을까요? 화학의 비유는 두 화학 물질이 자체적으로 완전히 불활성이지만 혼합 될 때 폭발을 일으킨다는 것입니다. 불변성과 같은 수학적 / 통계적 특성은 실제 데이터의 실제 문제와 관련이 없습니다. 고려해야 할 변수가 많을 때 모든 주요 효과를 살펴보고 대부분의 1 차 상호 작용을 보지 않을 경우 수행해야 할 수많은 테스트가 있다고 생각합니다. 또한 소수의 변수 만있는 소규모 실험에서도 2 차 상호 작용을 거의 보지 않습니다. 상호 작용의 순서가 높을수록 실제 효과가있을 가능성은 줄어든다고 생각합니다. 그러니 주 효과가 없다면 1 차 또는 2 차 상호 작용을 보지 마십시오. 좋은 규칙이지만 종교적으로 따르는 것은 예외를 간과한다는 것을 의미하며 문제는 예외 일 수 있습니다.


8

1
나는 아마도 불변이 현실 세계와 관련이 없다는 말을 잘못 들었습니다. 의도 한 요점은 일부 수학적 결과가 특정 실제 문제와 관련이 없을 수 있다는 것입니다. 예를 들어 최소 제곱 추정은 일반적인 오차 가정 하에서 최대 가능성이고 가우스 마르코프 정리는 더 약한 조건에서 편향되지 않은 최소 분산이지만 데이터에 이상 치가있는 경우에는 사용하지 않습니다. 마찬가지로, 불변성과 같은 속성이 의학적으로 주 효과없이 일어날 것이라고 의학적으로 말하면 상호 작용을 포함하여 배제해야합니까?
Michael Chernick

6

[대부분의 답변에서 밝혀지지 않은 원래 질문의 일부에 대한 답변을 시도하는 것 : "모델 선택 기준으로서 AIC를 신뢰해야합니까?"

AIC는 복음으로 받아 들여야 할 규칙보다 지침으로 더 많이 사용해야합니다.

AIC (또는 BIC 또는 모델 선택에 대한 유사한 '간단한'기준)의 효과는 학습 알고리즘과 문제에 크게 좌우됩니다.

AIC 공식에서 복잡성 (인자 수) 항의 목표는 간단합니다. 그러나 AIC의 단순성은 종종 문제 자체의 실제 복잡성을 포착하지 못하는 경우가 많습니다. 이것이 과적 합을 피하기위한 다른 실용적인 기술이있는 이유입니다 (예 : 교차 검증 또는 정규화 용어 추가).

온라인 SGD (stochastic gradient descent)를 사용하여 매우 많은 수의 입력이있는 데이터 세트에서 선형 회귀를 수행 할 때 AIC는 많은 수의 용어가있는 복잡한 모델에 과도하게 불이익을 주므로 모델 품질의 끔찍한 예측자가됩니다. 각 용어가 작은 영향을 미치는 실제 상황이 많이 있지만, 다수의 용어가 함께 있으면 결과에 대한 강력한 통계적 증거가됩니다. AIC 및 BIC 모델 선택 기준은 더 복잡한 모델이 우수하더라도 이러한 모델을 거부하고 더 간단한 모델을 선호합니다.

결국, 일반화 오류 (대략 : 샘플 성능에서)가 계산됩니다. AIC는 비교적 간단한 상황에서 모델 품질에 대한 힌트를 제공합니다. 실제 생활은 단순한 공식보다 더 복잡하지 않고 더 복잡하다는 사실을주의하고 기억하십시오.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.