릿지 회귀는 왜 다중 공선 성이있는 상태에서 잘 작동합니까?


14

능선 회귀에 대해 배우고 있으며 능선 회귀가 다중 공선 성이 존재할 때 더 잘 작동하는 경향이 있음을 알고 있습니다. 왜 이것이 사실인지 궁금합니다. 직관적 인 답변이나 수학적인 답변이 만족할 것입니다 (두 가지 유형의 답변 모두 더 만족할 것입니다).

또한, 나는 그 것을 알고 β가 항상 얻을 수 있지만, 얼마나 정확한 공선의 존재 능선 회귀 작업 (하나 개의 독립 변수는 서로의 선형 함수이다)는 무엇입니까?β^


5
두 번째 질문과 관련하여 : 정확한 공선 성이있는 경우 변수 중 하나만 제거하면됩니다. 능선 회귀가 필요하지 않습니다.
Peter Flom-Monica Monica 복원

답변:


13

2 개의 예측 변수 ( , x 2 ) 의 간단한 경우를 고려하십시오 . 두 예측 변수 모두에 동일 선상 성이없고 분산이 적 으면 데이터에 평면을 적합시킵니다 (x1x2y3 차원)이며 종종 매우 명확한 '최고의'평면이 있습니다. 그러나 공선 성으로 인해 관계는 실제로 데이터가 흩어져있는 3 차원 공간을 통과하는 선입니다. 그러나 회귀 루틴은 평면을 선에 맞추려고 시도하므로 해당 선과 완벽하게 교차하는 무한한 수의 평면이 있습니다.이 평면은 데이터의 영향력있는 점에 따라 달라지며 그 점 중 하나를 조금 변경하고 "최고의"피팅 평면은 약간 변경됩니다. 능선 회귀는 선택한 평면을 더 단순한 / 남성 모델쪽으로 (바이어스 값은 0으로) 끌어 당기는 것입니다. 원점 (0,0,0)에서 평면을 0쪽으로 당기는 평면까지의 고무 밴드를 생각해보십시오. 반면에 데이터는 좋은 절충안을 가져옵니다.


@Trynna, Greg가 공선 성 문제에 대해 말한 것을 보여주는 그림 이 있습니다 .
ttnphns

1
이것은 다중 공선 성이 왜 OLS 회귀에서 문제인지에 대한 아주 좋은 기하학적 설명입니다! 그러나 나는 왜 비행기를 원점으로 당기는 것이 문제를 해결하는지 이해하지 못합니다.
TrynnaDoStat

2
@TrynnaDoStat, 주요 관심사는 다중 공선 성을 사용하여 단일 데이터 포인트의 작은 변화만으로 계수 추정치를 크게 편향시킬 수있는 추정치의 변동성입니다. 0쪽으로 치우치면 단일 데이터 포인트의 작은 변화로 계수 추정치에 큰 변화가 없습니다 (고무 밴드가 0쪽으로 당기기 때문에).
Greg Snow

그림에 대한 링크에 대해 @ttnphns에게 감사드립니다. 이제 Greg의 대답은 명확하고 ESLII (2nd ed.)에서이 라인을 이해하는 데 필요한 것입니다. "한 변수에 대한 매우 큰 양의 계수는 상관 된 사촌에 대해 비슷한 큰 음의 계수로 취소 될 수 있습니다. 이 문제는 완화된다. "
Tommaso Guerrini
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.