공선 성을 탐지하기위한 다양한 접근 방식의 장점은 무엇입니까?


11

OLS 회귀 분석에서 공선 성이 문제인지 확인하고 싶습니다. 분산 인플레이션 요인과 조건 지수는 일반적으로 사용되는 두 가지 측정 방법이지만 각 방법의 장점 또는 점수가 무엇인지에 대해 명확한 것을 찾는 것이 어렵다는 것을 알고 있습니다.

수행 할 접근 방식 및 / 또는 적절한 점수를 나타내는 중요한 출처가 매우 유용합니다.

비슷한 질문이 "다중 선형성의 특정 척도를 선호 할 이유가 있는가?" 그러나 나는 인용 할 수있는 참조를 따르는 것이 이상적입니다.


4
공선 성은 매우 중요 하다는 점을 기억하십시오 . 따라서 훌륭한 숫자를 제공하는 텍스트를 찾더라도 "문제 없음"대 "문제가 있음"에 대한 하드 컷오프 값으로 취급해서는 안됩니다 ".
Silverfish

4
@Silverfish는 좋은 조언을 제공합니다. Belsley, Kuh 및 Welsch는 공선 성이 존재하는 경우에도 반드시 해로운 것은 아니라는 점을 강조합니다. 실제로 분석에 문제를 일으키는 지 여부를 결정해야합니다.
whuber

답변:


11

Belsley, 쿠와 Welsch는 이런 종류의 질문을 위해 이동하는 텍스트입니다. 여기에는 "역사적 관점"섹션에서 이전 진단에 대한 광범위한 토론이 포함됩니다. VIF에 관하여 그들은 쓴다

... 데이터가 단위 길이를 갖도록 중심이 맞춰 지고 크기가 조정 되었다고 가정하면 상관 행렬 R 은 단순히 X ' X 입니다. ...엑스아르 자형엑스'엑스

우리는 고려하고있는 . 의 대각선 요소 R - 1R 제가 종종 분산 팽창 계수라고, VIF I 및 그들의 진단 값이 관계로부터 다음 VIF = 1아르 자형1=(엑스'엑스)1아르 자형1아르 자형나는나는VIF나는 여기서R 2 i 는나머지 설명 변수에서 회귀 된Xi의 다중 상관 계수입니다. 분명히 높은 VIF는R 2 i가 거의 일치함을 나타내므로 공선 성을 가리 킵니다. 따라서이 측정 값은 공선 성의 전반적인 표시로 사용됩니다. R의 약점과 같은 약점은 여러 공존하는 근접 의존성을 구별 할 수없고, 높은 것으로 간주 될 수있는 VIF와 낮은 것으로 간주 될 수있는 VIF의 값을 구별 할 수있는 의미있는 경계가 없다는 데 있습니다.

VIFi=11Ri2
Ri2XiRi2아르 자형

분석 대신에 (또는 R - 1 ), BKW는의 특이 값 분해의주의, 제어 시험 제안 X을 . 가장 큰 특이 값과 가장 작은 특이 값의 비율이 X조건 수임 을 입증 하고 회귀 추정의 계산에서 계산 오류의 전파에 조건 수가 어떻게 제공되는지를 보여줍니다. (가) 매개 변수 추정의 편차를의 그들은 대략적인 분해를 시도 갈 β 내가아르 자형아르 자형1엑스엑스β^나는특이 값과 관련된 구성 요소로 이 분해의 힘은 단지 존재를 나타내는 것이 아니라 공선 성의 본질 을 드러내는 능력 (많은 경우)에 있습니다.

수백 개의 변수로 회귀 모델을 만든 사람이라면 누구나이 기능에 감사 할 것입니다! 소프트웨어가 "데이터가 공 선형이고 진행할 수 없습니다"라고 말하거나 심지어 "데이터가 공 선형입니다. 다음 변수를 버리고 있습니다." "변수 그룹 가 계산에서 불안정성을 유발하고 있습니다. 부품 분석을 통해 부품 수를 줄였습니다. "엑스나는1,,엑스나는케이

궁극적으로 BKW는 다음을 통해 공선 성을 진단 할 것을 권장합니다.

... 다음 이중 조건 :

  1. 조건 지수가 높은 것으로 판단되는 특이 값
  2. 두 개 이상의 추정 된 회귀 계수 분산에 대한 높은 분산 분해 비율 .

(1)에서 큰 것으로 간주되는 (즉, 보다 큰) 조건 인덱스 의 수는 데이터 매트릭스 X 의 열들 사이의 거의 종속성의 수를 식별하고 , 이러한 높은 조건 인덱스의 크기는 그들의 상대적인 "밀착도"의 척도를 제공한다. " 또한, (2)에서 각각의 높은 조건 지수와 관련된 큰 분산 분해 비율 (즉, 0.5 보다 큰)의 결정은 해당 근사치에 관련된 변이를 식별하고 높은 비율과 관련하여 이러한 비율의 크기를 식별합니다. 조건 지수는 공선 성이 존재하여 해당 회귀 추정치가 저하 된 정도를 측정합니다.30엑스0.5


10
  • 아르 자형21/(1아르 자형2)

    그러나 일반적으로 구현되는 VIF는 인터셉트가 일반적으로 이러한 "헬퍼"회귀에 자동으로 포함되므로 인터셉트와의 공선성에 대해 알려줄 수 없습니다. 또한 회귀 분석에서 VIF가 높으면 공선 성을 담당 하는 다른 회귀 분석기를 즉시 알 수 없습니다 . 도우미 회귀 분석에서 표준화 된 계수를 살펴 봐야합니다.

  • Belsley, Kuh & Welsch (Belsley, DA; Kuh, E. & Welsch, RE Regression Diagnostics : 영향력있는 데이터 및 공조의 출처 식별. John Wiley & Sons, 1980) 의 조건 지수와 공선 성 분해 비율은 이해하기 가 훨씬 더 어렵다. 나는 몇 년 전에이 작업을했지만, 새로 고침을받지 않고 여기에서 설명하려고 시도하지 않습니다. ;-)

    이러한 진단 을 통해 인터셉트와 공선 성을 탐지 수 있습니다. 또한 공선 성 분해 비율을 조사하여 주어진 한 회귀선의 공선 성을 담당하는 다른 회귀 분석기를 추론 할 수 있습니다.


고마워-매우 유용합니다-당신은 우연히 VIF가 10 규칙보다 큰 인용을 알고 있음을 알고 있습니까? 나는 많은 econ-lecture 노트에서 찾을 수 있지만 출판 된 것을 찾을 수는 없습니다 .. .
키레 니아

@kyrenia "10보다 큰"은 내가 제안한 유일한 임계 값과는 거리가 멀다! 필드 간 또는 저자 간 차이가 있는지 궁금합니다.
Silverfish

3
2100

@ whuber 감사합니다. 이것은 매우 흥미로운 관찰이며 OP가 제기 한 질문과 관련이 있습니다. StackExchange 시스템 내에서 주석의 "두 번째 순위"중요성을 감안할 때, 훌륭한 답변에 포함시키는 것을 고려해야한다고 생각합니다.
Silverfish

6

인용에 대한 광범위한 참조를 위해 117 페이지 의 원거리 책 은 조건 번호를 기반으로 문제를 감지하기위한 30 가지 이상의 경험 법칙을 제공하며 101 페이지의 통계 학습 소개 는 5 또는 10보다 큰 VIF 값이 문제를 나타냅니다 .

다중 공선 성을 식별하는 데 사용하는 방법보다 더 중요한 것은 아마도이를 처리하는 방법입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.