다른 예측 변수를 포함시킨 후 부호가 반전되는 회귀 계수


31

상상 해봐

  • 4 개의 숫자 형 예측 변수 (IV1, ..., IV4)로 선형 회귀 분석을 실행합니다.
  • IV1 만 예측 변수로 포함 된 경우 표준화 된 베타는 +.20
  • IV2에서 IV4까지 포함하면 IV1의 표준화 된 회귀 계수의 부호가 반전됩니다 -.25(즉, 음수가 됨).

이로 인해 몇 가지 질문이 발생합니다.

  • 용어와 관련하여 이것을 "억제 효과"라고 ​​부릅니까?
  • 이 효과를 설명하고 이해하기 위해 어떤 전략을 사용 하시겠습니까?
  • 실제로 그러한 영향의 예가 있습니까? 그리고 이러한 효과를 어떻게 설명하고 이해 했습니까?

예측 변수를 포함 할 때 계수가 부호를 변경하지만 다중 공선 성이 존재하지 않는 상황을 어떻게 설명 할 수 있습니까 (낮은 VIF 값이 암시 하듯이)? 흥미롭게도 예측 변수를 포함시킬 때 기호는 처음에 예상했던 것으로 바뀌 었습니다 (긍정적). 단순한 독립 변수 회귀 분석에서는 음수 였지만 (상관 행렬은 종속 변수와 최소 음의 상관 관계를 나타냄) 다른 예측 변수와 함께 즉시 긍정적으로 바뀌 었습니다.

@John은이 사이트에서 귀하의 의견을 삭제하고 질문을 별도의 질문으로 게시 할 수 있습니까 (예 : "질문과 대답"). 질문이이 질문과 관련이 있다고 생각되면이 질문에 대한 링크를 추가하십시오. 당신의 새로운 질문
Jeromy Anglim

2
내가 Seth Dutter와 함께 쓴 논문은 내용을 명확히하는 데 도움이 될 수 있습니다. 주로 기하학적 관점에서 작성되었습니다. 링크는 arxiv.org/abs/1503.02722 입니다. -Brian Knaeble, B. & Dutter, S. (2015). 고유 한 효과의 방향에 대한 최소 제곱 추정치 및 모델 독립적 추정치의 반전. arXiv 프리 프린트 arXiv : 1503.02722.

답변:


26

JoFrhwld가 언급했듯이 다중 공선 성은 일반적인 용의자입니다. 기본적으로 변수가 양의 상관 관계인 경우 계수가 음의 상관 관계가 있으므로 계수 중 하나에 잘못된 부호가 생길 수 있습니다.

한 가지 점검은 주성분 회귀 또는 능선 회귀를 수행하는 것입니다. 이렇게하면 다중 공선 성을 처리하면서 회귀 공간의 차원이 줄어 듭니다. 치우친 추정치로 이어지지 만 MSE가 낮고 부호가 수정 될 수 있습니다. 이러한 특정 결과에 관계없이 좋은 진단 검사입니다. 여전히 부호 변경이 있으면 이론적으로 흥미로울 수 있습니다.

최신 정보

John Christie의 답변에 대한 의견에 따르면, 이것은 흥미로울 수 있습니다. 관련 반전 (크기 또는 방향)은 심슨의 역설, 주님의 역설 및 억제 효과의 예입니다. 차이점은 본질적으로 변수 유형과 관련이 있습니다. 특정 "역설"이나 효과의 관점에서 생각하기보다는 근본적인 현상을 이해하는 것이 더 유용합니다. 인과적인 관점에서 아래의 논문은 왜 그런지를 설명하는 데 도움이되며, 식욕을 자극하는 소개와 결론을 길게 인용하겠습니다.

Tu 등은 세 가지 역설의 동등성에 대한 분석을 제시하며, 세 번째 변수가 통계적으로 제어 될 때 세 가지 변수 모두 두 변수의 연관성에서 예상치 못한 변화를 반복한다는 결론을 내린다. 조건부 분석에서 반전 또는 크기의 변화가 일반적이기 때문에 나는 이것을 놀랍지 않게 부릅니다. 두 가지 중 하나를 피하려면 조건부 분석을 모두 피해야합니다. 심슨과 주님의 역설이나 진압 효과는 명백한 점을 넘어서서 간헐적이고 때로는 흥미 진진한 관심을 끌고 있는가?

[...]

결론적으로, 심슨과 관련 역설이 인과 분석을 안내하기 위해 통계적 기준을 사용하는 데 따르는 위험을 드러내고 있음에도 불구하고, 그들이 묘사하고자하는 현상에 대한 설명이나 피할 수있는 방법에 대한 포인터는 가지고 있지 않다. 설명과 솔루션은 통계적 기준이 아닌 배경 지식에 의존하는 인과 추론에 있습니다. 우리는 잘못 해석 된 징후와 증상 ( '역설')의 치료를 중단하고 질병을 다루는 사업 ( '인과성')에 착수 할 때가되었습니다. 우리는 실험이 아닌 데이터를 사용하여 인과 분석을위한 공변량 선택의 다년생 문제에주의를 기울여야합니다.


1
능선 또는 PCA 회귀 분석을 제안 해 주셔서 감사합니다. "변수가 양의 상관 관계가 있으면 계수가 음의 상관 관계가되어 부호 역전이 발생합니다.": 양의 상관 관계가있는 예측 변수는 일반적으로 부호 역전으로 이어지지 않습니다.
Jeromy Anglim

죄송합니다. 서둘러 작성된 한 줄짜리 설명입니다. 고맙습니다.
ars

인과 메커니즘의 중요성에 대한 좋은 지적.
Jeromy Anglim

14

나는 이것들과 같은 효과가 종종 공선성에 기인한다고 생각합니다 ( 이 질문 참조 ). Gelman과 Hill의 다단계 모델링에 관한 책이 그것에 대해 이야기한다고 생각합니다. 문제는 IV1하나 이상의 다른 예측 변수와 상관 관계가 있으며, 모형에 모두 포함되면 추정이 불규칙하게됩니다.

계수 반전이 공선성에 기인 한 경우, 예측 변수와 결과 간의 관계 때문이 아니라 실제로 예측 변수 간의 관계 때문이므로보고하는 것이 흥미롭지 않습니다.

이 문제를 해결하기 위해 제안한 것은 잔차입니다. 먼저에 대한 모형을 적합시킨 IV2 ~ IV1다음 해당 모형의 잔차를로 간주 rIV2합니다. 모든 변수가 서로 관련되어 있으면 실제로 모든 변수를 잔존시켜야합니다. 이렇게하도록 선택할 수 있습니다

rIV2 <- resid(IV2 ~ IV1)
rIV3 <- resid(IV3 ~ IV1 + rIV2)
rIV4 <- resid(IV4 ~ IV1 + rIV2 + rIV3)

이제 최종 모델을

DV ~ IV1 + rIV2 + rIV3 + rIV4

이제에 대한 계수는 와의 상관 관계에 rIV2대한 독립 효과 를 나타냅니다 . 다른 순서로 잔존하는 경우 동일한 결과를 얻지 못한다는 말을 들었습니다. 잔존 순서를 선택하는 것은 실제로 연구 내에서 판단을 요구합니다.IV2IV1


답변 해주셔서 감사합니다. 나는 이런 생각을했다. (a) 다중 공선 성 : 동의합니다. 그것없이, 계수는 변하지 않아야한다. (ᄂ) 재미 있습니까? 필자는 실제로 뒤집기 부호가 흥미로운 이론적 해석을 가질 수 있다고 생각합니다. 그러나 순수한 예측 관점에서는 그렇지 않을 것입니다. (c) 잔존 : 다른 사람들이이 접근법에 대해 어떻게 생각하는지 듣고 싶습니다.
Jeromy Anglim

다중 공선 성이 흥미로운 지 확실하지 않습니다. 당신이 어떤 결과를 가지고 말 O, 당신의 예측은 Income하고 Father's Income. 사실 Income과 상관 관계는 Father's Income본질적으로 흥미롭지 만 그 사실은 더의 가치를 중요 사실이 없을 것입니다 O. 즉, O결과 데이터를 수집하거나 결과가 무엇인지 모른 채 예측 변수가 모두 동일 선상에 있다는 것을 알 수 있습니다! 당신이 알고 일단 그 사실은 특히 더 흥미하지합니다 O정말입니다 Education.
JoFrhwld

나는 억제 효과가 이론적으로 흥미로울 수 있다고 제안하고 있는데, 아마도 다중 공선 성은 설명의 시작점을 제공합니다.
Jeromy Anglim

5

심슨의 역설을 참조하십시오 . 요컨대, 상호 작용이 모델에 추가 될 때 관찰 된 주요 효과가 반전 될 수 있습니다. 링크 된 페이지에서 대부분의 예제는 범주 형이지만 페이지 맨 위에는 지속적으로 상상할 수있는 그림이 있습니다. 예를 들어, 범주 형 및 연속 형 예측 변수가있는 경우 범주 형 예측 형이 추가되고 각 범주 내에서 부호가 전체 점수와 다른 경우 연속 형 예측 변수가 쉽게 부호를 뒤집을 수 있습니다.


좋은 지적. 심슨 역설의 모든 예는 범주 형 변수에 적용됩니다. 서프 레서 변수의 개념은 숫자와 동등한가?
Jeromy Anglim
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.