다중 회귀 분석에서 예측 변수 간의 높은 상관 관계를 처리하는 방법은 무엇입니까?


18

다음과 같은 기사에서 참조를 찾았습니다.

Tabachnick & Fidell (1996)에 따르면 이변 량 상관 관계가 .70보다 큰 독립 변수는 다중 회귀 분석에 포함되지 않아야합니다.

문제 : 다중 회귀 설계에서 3 개의 변수 상관 관계인> .80, VIF와 약 .2-.3, 공차 ~ 4-5를 사용했습니다. (중요 예측 변수 및 결과) 이들 중 어느 것도 제외 할 수 없습니다. .80으로 상관 된 2 개의 예측 변수에 대한 결과를 회귀 할 때, 각각 예측 된 중요한 분산이 모두 유의하게 유지되었으며,이 두 변수는 포함 된 10 개의 변수 중 가장 큰 부분 및 반 부분 상관 계수를가집니다 (5 개 대조군).

질문 : 상관 관계가 높음에도 불구하고 모델이 유효합니까? 어떤 참조도 크게 환영합니다!


답변 주셔서 감사합니다!

나는 Tabachnick과 Fidell을 지침으로 사용하지 않았으며, 예측 자들 사이에서 높은 공선 성을 다루는 기사 에서이 참조를 발견했습니다.

따라서 기본적으로 모델의 예측 변수 수에 대한 사례가 너무 적습니다 (많은 범주 형, 더미 코드 제어 변수-연령, 임기, 성별 등)-72 건의 경우 13 개의 변수. 조건 지수는 ~ 29이고 모든 컨트롤이 있고 ~ 23 (5 개 변수)입니다.

이론적으로는 자체적으로 의미가 있기 때문에 변수를 삭제하거나 요인 분석을 사용하여 결합 할 수 없습니다. 더 많은 데이터를 얻기에는 너무 늦습니다. SPSS에서 분석을 수행하고 있기 때문에 능선 회귀 구문을 찾는 것이 가장 좋습니다.

중요한 경우, 단계적 회귀 분석을 수행 할 때 동일한 2 개의 높은 상관 변수가 결과의 단일 중요한 예측 변수로 남았습니다.

그리고이 변수들 각각에 대해 높은 부분 상관이 모델에서 왜 (리지 능형 회귀를 수행 할 수없는 경우) 유지했는지에 대한 설명으로 중요한지 여전히 이해하지 못합니다.

"회귀 진단 : 영향력있는 데이터와 공선 성의 원천 식별 / David A. Belsley, Edwin Kuh 및 Roy E. Welsch, 1980"이 다중 공선 성을 이해하는 데 도움이됩니까? 아니면 다른 참조가 유용 할 수 있습니까?


2
이 상황에 대한 명확한 예는 stats.stackexchange.com/a/14528 에서 10 개의 IV 분석을 참조하십시오 . 여기서 모든 IV는 (60 % 정도) 강한 상관 관계가 있습니다. 그러나 당신이 그들 모두를 배제한다면, 당신은 아무것도 남지 않을 것입니다! 종종 당신이 드롭 할 수없는 경우의 모든 이러한 변수는. 이렇게하면 T & F 권장 사항을 유지할 수 없습니다.
whuber

실제로 Tabachnick과 Fidell에는 적어도 다소 모호한 것으로 간주되는 많은 선언이 있습니다 ... 책에 어떤 것이 인쇄되어 있다고해서 항상 의미가 있다는 것은 아닙니다.
Glen_b-복지 주 모니카

답변:


20

주요 문제는 상관 관계가 아니라 공선 성입니다 (예 : Belsley의 작품 참조). 이것은 최상의 상태 인덱스 (로모 사용하여 테스트 R, SAS심한 30 이상, 중간 공선 () Belsley 당 10. 상관 관계가 필요하거나 공선위한 충분 조건도 아니다으로 잘. 아마 다른 프로그램을 조건 인덱스를 나타냅니다뿐만 아니라 따라 달라집니다 공선 성과 관련된 변수

공선 성이 높으면 모수 추정값이 불안정 함을 의미합니다. 즉, 데이터의 작은 변화 (때로는 4 번째 중요한 수치)는 모수 추정치에 큰 변화를 일으킬 수 있습니다 (때때로 부호를 뒤집는 경우도 있음). 이것은 나쁜 것입니다.

해결 방법은 1) 더 많은 데이터 가져 오기 2) 변수 하나 삭제 3) 변수 결합 (예 : 부분 최소 제곱과) 및 4) 능선 회귀를 수행하여 편향된 결과를 제공하지만 추정값의 편차를 줄입니다.


Tabachnick과 Fidell은 사회 과학을위한 멋진 다변량 책을 썼습니다. 통계학자는 아니지만 다변량에 대한 지식은 훌륭합니다. 그러나 나는 그들이 간단한 규칙을 만들어 통계적 미묘함을 놓칠 수 있다고 생각합니다. 그래서 나는 그의 논문에서보다 베드로가 그의 답변에서 말하는 것에 더 의존 할 것입니다.
Michael R. Chernick

감사합니다 @MichaelChernick. 실제로 여러 회귀 분석을위한 공선 성 진단에 대한 논문을 썼습니다.
Peter Flom-Monica Monica 복원

나는 당신이 나만큼 나이가 많기 때문에 당신의 작업은 Belsley, Kuh 및 Welsch and Cook의 작업을 따른 것이라고 가정합니다. 나는 Cook의 연구가 대부분 다른 진단 문제 (상승 및 비정규 성)에 관한 것임을 알고 있지만 다중 공선성에 대해 무엇을 했습니까? 물론 능선 회귀의 개념은 심지어 내 시간 이전으로 거슬러 올라갑니다
Michael R. Chernick

1
@Peter Flom : 상관 관계가 공선 성을 위해 필요하거나 충분한 조건이 아닌 이유 비선형 상관 관계를 언급하고 있습니까?
Julian

5
변수가 많으면 모든 쌍이 약간만 상관 될 수 있지만 그 합은 완벽하게 동일하기 때문에 필요하지 않습니다. 상당히 높은 상관 관계가 조건 인덱스 당 번잡 한 공선 성을 생성하지 않는 경우가 있기 때문에 충분하지 않습니다.
Peter Flom-Reinstate Monica
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.