Belsley, 쿠와 Welsch는 이런 종류의 질문을 위해 이동하는 텍스트입니다. 여기에는 "역사적 관점"섹션에서 이전 진단에 대한 광범위한 토론이 포함됩니다. VIF에 관하여 그들은 쓴다
... 데이터가 단위 길이를 갖도록 중심이 맞춰 지고 크기가 조정 되었다고 가정하면 상관 행렬 R 은 단순히 X ' X 입니다. ...XRX′X
우리는 고려하고있는 . 의 대각선 요소 R - 1 의 R 나 제가 종종 분산 팽창 계수라고, VIF I 및 그들의 진단 값이 관계로부터 다음 VIF 난 = 1R−1=(X′X)−1아르 자형− 1아르 자형나는 내가VIF나는 여기서R 2 i 는나머지 설명 변수에서 회귀 된Xi의 다중 상관 계수입니다. 분명히 높은 VIF는R 2 i가 거의 일치함을 나타내므로 공선 성을 가리 킵니다. 따라서이 측정 값은 공선 성의 전반적인 표시로 사용됩니다. R의 약점과 같은 약점은 여러 공존하는 근접 의존성을 구별 할 수없고, 높은 것으로 간주 될 수있는 VIF와 낮은 것으로 간주 될 수있는 VIF의 값을 구별 할 수있는 의미있는 경계가 없다는 데 있습니다.
VIF나는= 11 - R2나는
아르 자형2나는엑스나는아르 자형2나는아르 자형
분석 대신에 (또는 R - 1 ), BKW는의 특이 값 분해의주의, 제어 시험 제안 X을 . 가장 큰 특이 값과 가장 작은 특이 값의 비율이 X 의 조건 수임 을 입증 하고 회귀 추정의 계산에서 계산 오류의 전파에 조건 수가 어떻게 제공되는지를 보여줍니다. (가) 매개 변수 추정의 편차를의 그들은 대략적인 분해를 시도 갈 β 내가아르 자형아르 자형− 1엑스엑스β^나는특이 값과 관련된 구성 요소로 이 분해의 힘은 단지 존재를 나타내는 것이 아니라 공선 성의 본질 을 드러내는 능력 (많은 경우)에 있습니다.
수백 개의 변수로 회귀 모델을 만든 사람이라면 누구나이 기능에 감사 할 것입니다! 소프트웨어가 "데이터가 공 선형이고 진행할 수 없습니다"라고 말하거나 심지어 "데이터가 공 선형입니다. 다음 변수를 버리고 있습니다." "변수 그룹 가 계산에서 불안정성을 유발하고 있습니다. 부품 분석을 통해 부품 수를 줄였습니다. "엑스나는1, … , X나는케이
궁극적으로 BKW는 다음을 통해 공선 성을 진단 할 것을 권장합니다.
... 다음 이중 조건 :
- 조건 지수가 높은 것으로 판단되는 특이 값
- 두 개 이상의 추정 된 회귀 계수 분산에 대한 높은 분산 분해 비율 .
(1)에서 큰 것으로 간주되는 (즉, 보다 큰) 조건 인덱스 의 수는 데이터 매트릭스 X 의 열들 사이의 거의 종속성의 수를 식별하고 , 이러한 높은 조건 인덱스의 크기는 그들의 상대적인 "밀착도"의 척도를 제공한다. " 또한, (2)에서 각각의 높은 조건 지수와 관련된 큰 분산 분해 비율 (즉, 0.5 보다 큰)의 결정은 해당 근사치에 관련된 변이를 식별하고 높은 비율과 관련하여 이러한 비율의 크기를 식별합니다. 조건 지수는 공선 성이 존재하여 해당 회귀 추정치가 저하 된 정도를 측정합니다.30엑스0.5