선형 회귀 분석에서 다중 공선 성이 문제인 이유에 대한 직관적 인 설명이 있습니까?


85

이 위키에서는 다중 공선 성 이 선형 회귀 문제 일 때 발생하는 문제에 대해 설명합니다 . 기본 문제는 다중 공선 성으로 인해 모수 추정값이 불안정하여 종속 변수에 대한 독립 변수의 영향을 평가하기가 매우 어렵다는 것입니다.

내가 문제 뒤에있는 기술적 인 이유를 이해 (반전 할 수 없습니다 , 악조건의 등) 그러나 나는이 문제에 대한보다 직관적 인 (아마도 기하학적?) 설명을 검색하고 있습니다.XXXX

왜 선형 회귀의 맥락에서 다중 공선 성이 문제가되는 지에 대한 기하학적이거나 아마도 이해하기 쉬운 다른 형태의 설명이 있습니까?


4
정말 좋은 질문입니다. 무언가를 이해하는 가장 좋은 방법은 여러 방향으로 설명하는 것입니다.
탈 Galili

1
관련 질문 및 시각적 설명을 참조하십시오. stats.stackexchange.com/q/70899/3277
ttnphns

답변:


89

가 와 에 대해 회귀 하고 와 가 양의 상관 관계가 있는 가장 간단한 경우를 고려하십시오 . 그런 효과 에서 효과와 구별하기 어렵다 의 의 증가 때문에 증가와 연관되는 경향 .X Z X Z X Y Z Y X ZYXZXZXYZYXZ

이것을 보는 또 다른 방법은 방정식을 고려하는 것입니다. 우리가 작성하면 , 다음 계수 증가 인 의 각 단위 증가 채 상수. 그러나 실제로는 유지하는 것이 불가능 상수 사이의 상관 관계 와 의 단위 증가한다는 것을 의미 보통에서 약간의 증가를 동반 동시에.b 1 Y X Z Z X Z X ZY=b0+b1X+b2Z+eb1YXZZXZXZ

다른 형태의 다중 공선성에 대해서도 비슷하지만 더 복잡한 설명이 있습니다.


20
+1 극도로 병적 인 경우가 더욱 강조됩니다. 및 는 구분할 수 없습니다. Y = b 0 + b 1 X + b 2 Z + e Y = b 0 + ( b 1 + b 2 ) X + 0 Z + eX=ZY=b0+b1X+b2Z+eY=b0+(b1+b2)X+0Z+e
vqv

1
+1 가장 일반적인 도움말 질문 중 하나가 이고 이유 때문에이 답변이 마음에 . 추론은 현실적인 입력을 설명해야합니다. b 2 < 0b1>0b2<0
muratoa

29

나는 초밥을 한 번 먹었고 그것이 좋지 않은 문제를 직관적으로 시연 할 수 있다고 생각했습니다. 기지에 닿는 두 개의 막대기를 사용하여 누군가에게 비행기를 보여주고 싶다고 가정 해보십시오.

당신은 아마 서로 직교하는 막대기를 잡을 것입니다. 비행기에서 손이 흔들리는 효과는 사람들에게 보여주기를 바라는 것에 약간 흔들 리게하지만 잠시 동안 당신을보고 난 후에는 어떤 비행기를 보여주고 싶은지 잘 알게됩니다.

그러나 스틱의 끝을 더 가깝게 잡고 손이 떨리는 효과를 봅시다. 그것이 형성하는 비행기는 훨씬 더 격렬해질 것입니다. 어떤 비행기를 시연하려고하는지 잘 이해하려면 청중이 더 오래 지켜봐야합니다.


+1 이것이 가장 직접적인 대답이라고 생각합니다. 비록 다중 공선 성이 해석에 영향을 미치기 때문입니다. 문제가되는 이유는 추정의 안정성입니다.
muratoa

+1이 사용자 의견 Snackrifice 아래에이 의견 (및 Stackoverflow 기록에있는이 의견 만)을 게시 한 경우.
stackoverflax 12

19

기하 적 접근은 의해 스팬 된 부분 공간 으로 의 최소 ​​제곱 투영을 고려하는 것 입니다.XYX

모델이 있다고 가정 해보십시오.

E[Y|X]=β1X1+β2X2

추정 공간은 벡터 및 의해 결정된 평면 이고 문제는 벡터 설명 할 해당하는 좌표를 찾는 것입니다 , 해당 평면 에 의 최소 ​​제곱 투영 .X1X2(β1,β2)Y^Y

이제 즉, 공 선형이라고 가정합니다. 그런 다음 및 의해 결정된 부분 공간은 뿐이며 자유도는 1입니다. 따라서 요청대로 및 두 값을 결정할 수 없습니다 .X1=2X2X1X2β1β2


2
나는 오래 전에 찬성 했지만 당신의 대답을 다시 읽은 것은 항상 Christensen의 복잡한 질문에 대한 비행기 답변을 좋아한다는 것을 상기시킵니다 ( j.mp/atRp9w ).
chl

@chl : 멋지다, 확실히 그것을 확인하려고합니다. :)
ars

14

두 사람이 언덕 위로 언덕을 밀고 있습니다. 당신은 그들 각각이 얼마나 힘든지 알고 싶어합니다. 10 분 동안 서로 밀고 볼더가 10 피트 이동하는 것을 봅니다. 첫 번째 사람이 모든 작업을 수행하고 두 번째 사람이 가짜 작업을 했습니까? 혹은 그 반대로도? 아니면 50-50? 두 힘이 정확히 동시에 작용하기 때문에 둘 중 하나의 힘을 따로 분리 할 수 ​​없습니다. 당신이 말할 수있는 것은 그들의 결합 된 힘이 분당 1 피트라는 것입니다.

이제 첫 번째 남자가 1 분 동안 밀고 나서 두 번째 남자와 9 분을 밀고 마지막 순간은 두 번째 남자가 밀고 있다고 상상해보십시오. 이제 첫 분과 마지막 분에 힘의 추정치를 사용하여 각 사람의 힘을 개별적으로 파악할 수 있습니다. 그들이 여전히 대부분 동시에 작동하고 있지만 약간의 차이가 있다는 사실은 각각에 대한 힘의 추정치를 얻을 수 있습니다.

각 사람이 10 분 동안 독립적으로 추진하는 것을 본다면, 힘이 크게 겹치는 경우보다 힘을 더 정확하게 추정 할 수 있습니다.

나는 독자 가이 사건을 오르막길을 밀고있는 사람과 내리막 길을 밀고있는 사람 (여전히 작동 함)으로 확장하는 연습으로 남겨 둡니다.

완벽한 다중 공선 성은 힘을 개별적으로 추정하지 못하게합니다. 거의 다 선형에 가까운 경우 표준 오차가 더 커집니다.


6

내가 이것에 대해 생각하는 방식은 실제로 정보 측면입니다. 각각의 말 과 에 대한 정보가 . 더 상관 와 서로이다 대한 자세한 정보 내용 에서 와 완벽하게 상관 화한다는 점에 유사하거나 겹치 및 , 정말 같은 정보 내용입니다. 를 설명하기 위해 과 를 동일한 (회귀) 모델에 넣으면 모델은 다음과 같은 정보를 "배분"하려고합니다. X 2 Y X 1 X 2 Y X 1 X 2 X 1 X 2 X 1 X 2 Y X 1 X 2 Y X 1 X 2 X 1 X 2 X X 1 X 2 b 1 X 1 + b 2 X 2 b 1 b 2X1X2YX1X2YX1X2X1X2X1X2YX1 , ) 는 및 에 대해 임의의 방식으로 약 를 포함 합니다. 정보를 분할 하면 모델의 ( , )에서 전체 정보를 유지하게되므로 ( 의 경우 실제로는 식별 할 수없는 경우). 많은 실행 에서 예측 된 값 를 보면, 및 의 개별 계수에 대한 개별 추정값이 불안정 해집니다. 및 추정치X2YX1X2X1X2XX1X2b1X1+b2X2b1b2이것들은 상당히 안정적입니다.


4

이것에 대한 나의 (매우) 평신도 직감은 OLS 모델이 X 변수에 특정 수준의 "신호"가 필요하다는 것을 감지하여 Y에 대한 "좋은"예측을 제공한다는 것입니다. 동일한 "신호"가 많은 X에 퍼져 있다면 (상관 관계가 있기 때문에) 상관 X는 실제 예측 변수 인 "증거"(통계적 의미)를 충분히 제공 할 수 없습니다.

이전 (멋진) 답변은 왜 그런지 설명하는 데 큰 도움이됩니다.


3

두 사람이 협력하여 과학적 발견을했다고 가정하자. 두 사람이 완전히 다른 사람 일 때 (한 사람은 이론적 인 사람이고 다른 사람은 실험에 능숙한 경우) 자신의 고유 한 공헌 (누가 무엇을 했는가)을 쉽게 알 수있는 반면, 자신의 고유 한 영향 (회귀 계수)을 구분하기는 어렵습니다. 쌍둥이도 비슷하게 행동합니다.


2

두 회귀자가 완벽하게 상관되어 있으면 계수를 계산할 수 없습니다. 계산할 수 있다면 왜 해석하기 어려운지 고려하는 것이 도움이됩니다 . 실제로 이것은 완벽하게 상관되지는 않지만 실제로 독립적이지 않은 변수를 해석하기 어려운 이유를 설명합니다.

종속 변수가 뉴욕에서 매일 생선을 공급한다고 가정하고, 독립 변수에는 비가 오는 날과 미끼의 양이 포함된다고 가정합니다. 우리가 데이터를 수집 할 때 알지 못하는 것은 비가 올 때마다 어부가 미끼를 구매하지 않을 때마다 일정량의 미끼를 구매한다는 것입니다. 따라서 미끼와 비는 완벽하게 상관되어 있으며 회귀 분석을 수행 할 때 계수를 계산할 수 없습니다. 실제로 미끼와 비는 완벽하게 상호 연관되어 있지는 않지만 내 생성을 정리하지 않고 회귀 자로 포함하고 싶지는 않습니다.


1

더미 변수 트랩은 왜 다중 공선 성이 문제인지 설명하는 또 다른 유용한 가능성을 제공한다고 생각합니다. 모델에 상수 및 전체 인형 세트가있을 때 발생합니다. 그런 다음 더미의 합은 상수, 따라서 다중 공선 성을 더합니다.

예 : 남성용 더미, 여성용 더미 :

yi=β0+β1Mani+β2Womani+ui

β1YManiβ2YWomani

β0E(yi|Mani=0,Womani=0)

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.