모델에 선형 항이 아닌 2 차 항을 추가하는 것이 합리적입니까?


57

내 예측 변수 중 하나가 (실험적 조작으로 인해) 예측 변수와 2 차적으로 만 관련되어야하는 (혼합 된) 모델이 있습니다. 따라서 모형에 2 차 항만 추가하고 싶습니다. 두 가지가 나를 방해합니다.

  1. 나는 고차 다항식을 피팅 할 때 항상 낮은 차수의 다항식을 포함해야한다고 생각합니다. 내가 찾은 곳을 잊어 버렸고 내가 본 문헌 (예 : Faraway, 2002; Fox, 2002)에서 좋은 설명을 찾을 수 없습니다.
  2. 선형 및 2 차 항을 모두 추가하면 둘 다 중요합니다. 그중 하나만 추가해도 중요하지 않습니다. 그러나 예측 변수와 데이터의 선형 관계는 해석 할 수 없습니다.

내 질문의 맥락은 특히을 사용하는 혼합 모형 lme4이지만 왜 또는 왜 다항식이 아닌 고차 다항식을 포함시키는 것이 좋지 않은지 설명 할 수있는 답변을 얻고 싶습니다.

필요한 경우 데이터를 제공 할 수 있습니다.


5
질문에 대한 답변이 도움이 될 것입니다.

6
그렇습니다. Procrastinator에 동의하며 상호 작용 질문은 기본적으로 동일한 고려 사항입니다. 주제에 대해 몇 가지 투표권이 높은 질문이 있습니다. Pro의 제안 외에도 회귀 모델에서 모든 교호 작용 항에 개별 항이 필요합니까?를 참조하십시오. 어떤 상호 작용이 회귀 내 직접적인 영향을 쳐 경우? .
Andy W

이 질문에 대해 상기시켜 주셔서 감사합니다. 주어진 답변에서 2 차 항만 포함하고 그 자체로는 잘못이 아닌 선험적 인 이유가 있다면 괜찮은 전략 인 것 같습니다. 남아있는 질문은 확장성에 관한 것입니다 ( stats.stackexchange.com/a/27726/442 참조 ). 2 차 항만 사용할 때 피팅하기 전에 변수를 가운데에 배치해야합니까?
Henrik

1
@Henrik-귀하가 게시 한 링크의 대답은 예측 값의 임의적 이동 (예 : 평균 중심화)에 따라 모델 추론이 어떻게 진행되는지에 관한 것입니다. 같은 이유로 질문은 '아니오'입니다.
매크로

2
이차 대 선형의 문제는 개념적으로 상호 작용과 충분히 구별되며 이것이 중복으로 간주되어서는 안된다고 생각합니다.
gung-복직 모니카

답변:


66

1. 왜 선형 항을 포함합니까?

이차 관계는 두 가지 방법으로 쓸 수 있음을 알 수 있습니다.

y=a0+a1x+a2x2=a2(xb)2+c

(여기서 계수와 동일하면 및 을 찾습니다 ). 값 은 관계의 전체 극한값에 해당합니다 (기하학적으로 포물선의 꼭짓점을 찾습니다).a 2 b 2 + c = a 0 x = b2a2b=a1a2b2+c=a0x=b

선형 항 포함하지 않으면 가능성이 다음과 같이 줄어 듭니다.a1x

y=a0+a2x2=a2(x0)2+c

(이제 분명히 이고 모델에는 상수 항 포함되어 있다고 가정합니다 ). 즉, 을 강제 합니다.c=a0a0b=0

이것에 비추어, 질문 # 1은 지구 극단이 에서 발생해야 하는지를 확신 합니다 . 그렇다면 선형 항 생략해도 됩니다. 그렇지 않으면, 당신은 해야한다 을 포함한다.x=0a1x

2. 용어가 포함되거나 제외 될 때의 의미 변화를 이해하는 방법은 무엇입니까?

이것은 https://stats.stackexchange.com/a/28493 의 관련 스레드에서 자세히 설명됩니다 .

현재의 경우, 의미는 관계에 곡률이 있음을 나타내며 의미는 가 0이 나타냅니다 . 물론 두 항 (물론 상수도 포함)을 포함해야하는 것처럼 들립니다.a2a1b


1
고마워 whuber. 좋은 대답입니다. 따라서 이론적 극단을 0 (실제로 최소값)에 맞추면 선형 항을 생략하는 것이 좋습니다. 이것은 일차적으로 매우 중요한 2 차 예측 변수 (선형 예측 변수없이)로 이어집니다.
Henrik

변수의 선형 및 2 차 항이 상관 관계가있는 경우 둘 다 모형에 포함시킬 수 있습니까? 아니면 2 차 항법 중 하나를 제외해야합니까?
mtao

@Teresa 회귀에서 상관 용어를 제거 할 일반적인 이유는 없습니다. (그러한 경우 지금까지 생성 된 대다수의 회귀 모형은 문제가 될 수 있습니다!) 매우 강하게 상관 된 항은 어느 한 항에 비해 모형 적합에 아무런 의미도 기여하지 않는 항을 해당 항의 부분 집합으로 줄일 수 있습니다.
whuber

@ whuber, 대단히 감사합니다! 또한 로지스틱 회귀 모형의 경우 확률 비율을 사용하여 효과 크기를 추정했지만 선형 항만 사용했습니다. 선형 및 이차를 가질 때 동일한 방법을 사용하고 결과를 같은 방식으로 해석 할 수 있습니까?
mtao

좀 빠지는. 그 이유는 선형 및 2 차 항을 개별적으로 변경할 수 없기 때문입니다. 원래 변수를 약간 변경하면 응답이 어떻게 변경되는지 고려해야합니다.
whuber

22

@ whuber는 여기에 정말 훌륭한 답변을주었습니다. 작은 무료 포인트를 추가하고 싶습니다. 문제는 "예측 자와 데이터의 선형 관계는 해석 할 수 없다"고 말합니다. 이것은 일반적으로 다른 쪽 끝에서들을 수 있지만 일반적인 오해를 암시합니다 ( '제곱 된 [입방체 등] 용어의 해석은 무엇입니까?')

우리가 여러 가진 모델이있을 때 다른 공변량을 각 베타 [용어는 일반적으로 자신의 해석을 여유 할 수 있습니다. 예를 들어,

GPA^college=β0+β1GPAhighschool+β2class rank+β3SAT,

(GPA는 평균 학점 평균,
랭크는 같은 고등학교의 다른 학생들에 대한 학생의 GPA 순서이며,
SAT는 대학에 진학하는 학생들을위한 전국적인 표준 시험 인 '학력 적성 시험'을 의미합니다)

각 베타 / 용어에 별도의 해석을 할당 할 수 있습니다. 예를 들어, 학생의 고등학교 GPA가 1 점 더 높으면 (평등 한 경우) 대학 GPA는 점 더 높을 것으로 예상 됩니다. β1

그러나 이러한 방식으로 모델을 해석하는 것이 항상 허용되는 것은 아니라는 점에 유의해야합니다. 한 가지 명백한 경우는 개별 용어가 다르고 여전히 일정하게 유지 될 수 없기 때문에 일부 변수간에 상호 작용이있는 경우입니다. 상호 작용 용어도 변경 될 수 있습니다. 따라서 상호 작용이있을 때, 우리 는 잘 이해되는 바와 같이 주요 효과를 해석하지 않고 단순한 효과 만 해석 합니다.

권력 용어가있는 상황은 직접적으로 유사하지만 불행히도 널리 이해되지 않는 것 같습니다. 다음 모델 고려 : (이 경우, . 원형 연속 공변량을 표현하도록 의도된다) 것이 불가능 없이 변경 도 변화 그 반대. 간단히 말해, 모형에 다항식 항이있을 때 동일한 기본 공변량을 기반으로하는 다양한 항에 별도의 해석이 제공되지 않습니다. ( , 등)라는 용어는 독립적으로 의미가 없다. • 그래도 사실
XXX2X2XX17(P)의P-1X의 Y , Y , X의차원Y

y^=β0+β1x+β2x2
xxx2x2xx17p-power 다항식 항이 모형에서 '유의 한'은 및 관련 함수에 '굽힘' 이 있음을 나타냅니다 . 불행히도 불가피하지만, 곡률이 존재하면 해석이 더 복잡해지고 직관적이지 않을 수 있습니다. 변화 함에 따라 의 변화를 평가하려면 미적분을 사용해야합니다. 위 모델의 미분은 다음과 같습니다. 이것은 변화 함에 따라 의 예상 값이 순간적으로 변하는 비율이며 , 다른 모든 것은 동일합니다. 이것은 최상위 모델의 해석만큼 그렇게 깨끗하지는 않습니다. 중요한 순간의 변화율p1xyy^x
yxyxyxoldxnew
dydx=β1+2β2x
yxy 는 변화가 평가되는 의 수준에 달려있다x . 또한, 의 변화율 은 순간적인 비율이다; 즉, 에서 까지 간격 전체에서 지속적으로 변경됩니다 . 이것은 단순히 곡선 관계의 본질입니다. yxoldxnew

1
탁월한 반응! 이것은 사용자 chl이 상호 작용 효과 해석에 대해 제공 한 몇 가지 훌륭한 반응을 상기시킵니다 . 그는이 응답에서 기사 상호 작용을 제공합니다. 상호 작용 효과를 식별하는 모범 사례는 무엇입니까? . 이 응답에서 코 플롯을 사용하여 상호 작용을 그래픽으로 표시하는 훌륭한 예를 제공합니다. 두 개의 연속 변수간에 상호 작용이 가능합니까? .
Andy W

1
Gung의 대답에 따르면 통계 모델링에는 다항식 회귀 모델의 세부 정보를 가장 할 수있는 노이즈가 포함되어 있다고 말하고 싶습니다. Bill Huber가 제기 한 중심 문제는 하나의 형식에서 선형 항이 누락되고 다른 항에서 2 차 항으로 발생하기 때문에 그레타 문제라고 생각합니다. 신호에서 곡률의 강도는 1 차 항보다 높은 항의 필요성을 나타내지 만 실제로는 항 항의 필요성에 대해서는 아무 것도 알려주지 않습니다.
Michael Chernick

7

의 @whuber의 대답 은 선형 항을 생략하는 것이 "보통"이차 모델이라는 점에서 목표에 맞습니다 . " 극단이 있다고 절대적으로 확신합니다 ."x=0

그러나 사용중인 소프트웨어에 "gotcha"가 있는지 확인해야합니다. 다항식 센터링을 해제 하지 않으면 일부 소프트웨어는 다항식을 피팅하고 계수를 테스트 할 때 데이터를 자동으로 중심에 맞출 수 있습니다. 즉, 와 같은 방정식에 적합 할 수 있습니다. 여기서 는 의 평균입니다 . 그렇게하면 극단이 됩니다. ˉ x x x = ˉ xY=b0+b2(xx¯)2x¯xx=x¯

두 항을 입력 할 때 선형 및 2 차 항이 모두 중요하다는 진술은 약간의 설명이 필요합니다. 예를 들어, SAS는 해당 예에 대한 Type I 및 / 또는 Type III 테스트를보고 할 수 있습니다. 타입 I은 2 차법에 들어가기 전에 선형을 테스트합니다. 유형 III은 모형에서 2 차로 선형을 테스트합니다.


2
이것은 합리적인 지점이지만, 를 만들기 전에 데이터가 중심에 있던 b / c만이 "극단이 있다고 확신 할 수있는"것은 아닙니다 . 한다는 이제 상기 한 동등 "극값은 인 " 전에 . 두 경우 모두 무한 정밀도를 가진 극한의 x 값을 지정할 수있는 능력에 대해 모델의 불편 함을 거는 것입니다. b / t 유형 I 및 유형 III 테스트의 차이는 잠재적으로 흥미로운 추가 사항이지만, nb, & 가 상관 관계가있는 경우, 즉 센터링이 발생 하지 않은 경우 에만 다를 수 있습니다. x = 0 x = ˉ x x x 2x2x=0x=x¯xx2
gung-복원 모니카

다른 참고로, 'at'기호로 가능한 사용자 이름을 지정하여 사용자의 기여를 참조 할 수 있습니다. 예를 들어,이 경우 '@whuber의 답변이 타깃에 맞습니다 ...'(동의하는 감정)
gung-Reinstate Monica

1
이러한 알림에 기여한 Emil에게 감사합니다. 둘 다 염두에 두어야합니다.
whuber

3

인터넷 부록 과 함께 제공되는 Brambor, Clark and Golder (2006) 는 상호 작용 모델을 이해하는 방법과 일반적인 함정을 피하는 방법에 대해 매우 명확하게 이해하고 있습니다. 상호 작용 모델의 '구성 적 용어'

분석가는 매우 드문 경우를 제외하고 곱하기 상호 작용 모델을 지정할 때 모든 구성 용어를 포함해야합니다. 구성 용어는 상호 작용 용어를 구성하는 각 요소를 의미합니다. [..]

그러나 독자들은 곱셈 상호 작용 모델은 다양한 형태를 취할 수 있으며 와 같은 2 차 항 또는 와 같은 고차 상호 작용 항을 포함 할 수 . 교호 작용 용어의 형식에 관계없이 모든 구성 용어가 포함되어야합니다. 따라서, 상호 작용 기간이 때 포함되어야 및 , , , , 및 상호 작용 기간이 때 포함되어야 . X Z J X X 2 X Z J X Z X J Z J X Z JX2XZJXX2XZJXZXJZJXZJ

그렇지 않으면 모형이 과소 평가되어 추정치가 치우칠 수 있습니다. 이로 인해 추론 오류가 발생할 수 있습니다.

이러한 경우이며 경우 하나와 상관 (또는 다음 구성 적 용어 생략의 거의 모든 사회 과학의 상황을 발생으로) 의 바이어스 (과 일치) 추정치가 발생합니다 , , 그리고 . 항상 그렇게 인식되지는 않지만 생략 된 가변 바이어스의 간단한 경우입니다 (Greene 2003, 148-149 페이지).X Z X Z β 0 β 1 β 3ZXZXZβ0β1β3

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.