다변량 회귀 모델로 땜질을하는 동안 범주 형 변수 범주 내 에서 분산 인플레이션 계수로 측정 한 것처럼 작지만 눈에 띄는 다중 공선 효과가 있음을 알 수있었습니다 (물론 참조 범주 제외 후).
예를 들어, 연속 변수 y와 k가 가능한 배타적 값을 갖는 하나의 명목 범주 형 변수 x를 가진 데이터 세트가 있다고 가정합니다. 우리는 이러한 코딩 0/1 가변 수는 가능한 값을 . 그런 다음 회귀 모델 합니다. 더미 변수 의 VIF 점수는 0이 아닌 것으로 판명되었습니다. 실제로 카테고리 수가 증가하면 VIF도 증가합니다. 더미 변수를 중심에 놓으면 VIF가 변경되지 않습니다.x 1 , x 2 , … , x k y = b 0 + b 1 x 1 + b 2 x 2 + ⋯ + b k − 1 x k − 1 k − 1
직관적 인 설명은 범주 형 변수 내에서 범주의 상호 배타적 인 조건이 이러한 약간의 다중 공선 성을 유발하는 것으로 보입니다. 이것은 사소한 결과입니까, 범주 형 변수를 사용하여 회귀 모형을 작성할 때 고려해야 할 문제입니까?