어떤 분산 인플레이션 계수를 사용해야합니까 : 또는 ?


30

vifR 패키지 의 함수를 사용하여 분산 인플레이션 요인을 해석하려고 합니다 car. 이 함수는 일반화 된 및 합니다. 도움말 파일 에 따르면 이 후자의 값은GVIF 1 / ( 2 df )VIFGVIF1/(2df)

신뢰 타원체의 치수를 조정하기 위해이 함수는 GVIF ^ [1 / (2 * df)]도 인쇄합니다. 여기서 df는 항과 관련된 자유도입니다.

도움말 파일에서이 설명의 의미를 이해하지 못하므로 또는 사용해야하는지 잘 모르겠습니다. . 내 모델 에서이 두 값은 매우 다릅니다 (최대 는 ~ ; 최대 는 ~ ).GVIF 1 / ( 2 df ) GVIF 60 GVIF 1 / ( 2 df ) 3GVIFGVIF1/(2df)GVIF60GVIF1/(2df)

누군가 내가 사용해야하는 것을 설명해 주시겠습니까? 그리고 타원체의 치수를 조정하면 무엇을 의미합니까?

답변:


25

Georges Monette와 저는 "일반화 된 공선 성 진단", JASA 87 : 178-183, 1992 ( 링크 )에 GVIF를 소개했습니다 . 설명했듯이 GVIF는이 하위 집합의 회귀자가 보완 하위 집합의 회귀와 관련이없는 경우 획득 할 수있는 "유토피아"타원체에 대한 계수 하위 집합에 대한 공동 신뢰 타원체의 하이퍼 볼륨의 제곱 비율을 나타냅니다. 단일 계수의 경우 이는 일반적인 VIF에 특화됩니다. 차원에서 GVIF를 비교할 수 있도록 GVIF ^ (1 / (2 * Df))를 사용하는 것이 좋습니다. 여기서 Df는 부분 집합의 계수 수입니다. 실제로, 이는 GVIF를 선형 측정 값으로 줄이고, Df = 1 인 VIF의 경우 계수에 대한 신뢰 구간의 공선 성으로 인해 팽창에 비례합니다.


3
우리 사이트에 오신 것을 환영합니다! 귀하의 계정을 등록하고 한 번에 한 번 방문하면 영광입니다. 하나의 작은 관리 메모 : 게시물에 서명 할 필요가 없으며, 사용자 페이지에 대한 링크가있는 identicon이 모든 답변에 자동으로 추가됩니다.
gung-Monica Monica 복원

24

나는 똑같은 질문에 부딪 쳤고 내 방식대로 노력했다. 아래의 자세한 답변을 참조하십시오.

우선, R에서 비슷한 VIF 값을 생성하는 4 가지 옵션을 발견했습니다.

corvifAED 패키지의 명령

vif차 패키지의 명령,

vifrms 패키지의 명령

vifDAAG 패키지의 명령.

요인 / 범주 형 변수 또는 다항식 항을 포함하지 않는 일련의 예측 변수에 이러한 명령을 사용하는 것은 매우 어려운 일입니다. corvifAED 패키지 의 명령이 결과에 GVIF로 레이블을 지정 하더라도 세 명령 모두 동일한 숫자 출력을 생성합니다 .

그러나 일반적으로 GVIF는 요인 및 다항식 변수에만 작용합니다. 둘 이상의 계수를 필요로하고 따라서 자유도가 1보다 큰 변수는 일반적으로 GVIF를 사용하여 평가됩니다. 1 계수 항에서 VIF는 GVIF와 같습니다.

따라서 3, 5 또는 10 임계 값과 같은 공선 성이 문제인지에 대한 표준 경험 규칙을 적용 할 수 있습니다. 그러나 약간의주의가 필요할 수 있습니다 ( http://www.nkd-group.com/ghdash/mba555/PDF/VIF%20article.pdf 참조 ).

예를 들어 범주 형 예측 변수와 같이 다중 계수 항의 경우 4 개의 패키지는 다른 출력을 생성합니다. vifrms 및 DAAG 패키지 의 명령은 VIF 값을 생성하는 반면 다른 두 명령은 GVIF 값을 생성합니다.

먼저 rms 및 DAAG 패키지의 VIF 값을 살펴 보겠습니다.

TNAP     ICE     RegB    RegC    RegD    RegE

1.994    2.195   3.074   3.435   2.907   2.680

TNAP 및 ICE는 연속 예측 변수이며 Reg는 인형 RegB가 RegE에 제공하는 범주 형 변수입니다. 이 경우 RegA가 기준입니다. 모든 VIF 값은 다소 적당하며 일반적으로 걱정할 필요가 없습니다. 이 결과의 문제점은 범주 형 변수의 기준선에 영향을 받는다는 것입니다. VIF 값이 허용 가능한 수준을 초과하지 않도록하려면 범주 형 변수의 모든 수준에 대해이 분석을 기준선으로 다시 실행해야합니다. 이 경우 5 번.

corvifAED 패키지의 vif명령 또는 자동차 패키지 의 명령을 적용하면 GVIF 값이 생성됩니다.

     |  GVIF     | Df | GVIF^(1/2Df) |  

TNAP | 1.993964  | 1  | 1.412078     |
ICE  | 2.195035  | 1  | 1.481565     | 
Reg  | 55.511089 | 5  | 1.494301     |

GVIF는 더미 회귀 기 세트와 같은 관련 회귀 기 세트에 대해 계산됩니다. 두 개의 연속 변수 TNAP 및 ICE의 경우 이는 이전 VIF 값과 동일합니다. 범주 형 변수 Reg의 경우 범주 형 변수의 단일 수준에 대한 VIF 값이 모두 중간 수준이지만 위와 같이 GVIF 값이 매우 높습니다.

V나는에프(1/(2×에프))V나는에프(1/(2×에프))범주 형 변수의 값은 공선 성으로 인한 계수 추정의 정밀도 감소에 대한 유사한 측정치입니다 (인용 준비가되지 않았지만 http://socserv2.socsci.mcmaster.ca/jfox/papers/linear- models-problems.pdf ).

V나는에프(1/(2×에프))V나는에프(1/(2×에프))

V나는에프(1/(2×에프))V나는에프(1/(2×에프))V나는에프2(1/(2×에프))<2


@JanPhilippS 사이트에 오신 것을 환영합니다. 이것은 OP의 질문에 대한 답변만큼 새로운 질문처럼 보입니다. 답변을 제공하려면 "답변"필드 만 사용하십시오. 궁금한 점이 있으면 [ASK QUESTION]상단의을 클릭하여 질문 하면 제대로 도와 드리겠습니다. 여기에 처음 오셨으므로 새로운 사용자를위한 정보가 포함 된 둘러보기 를 이용하십시오 .
gung-Monica Monica 복원

2
글쎄, 그것은 실제로 새로운 질문이 아닙니다. 오히려 자세한 답변입니다.
Jan Philipp S

1
@JanPhilippS, 자세한 내용을 읽을 수있는 링크를 제공해 주셔서 감사합니다. 귀하의 게시물이 업무 상태에 대한 약간의 반영을 허용하는 양질의 답변 인 것 같습니다.
timothy.s.lau 1

6

Fox & Monette (GVIF의 원래 인용, GVIF ^ 1 / 2df)는 GVIF를 1 / 2df의 거듭 제곱으로 사용하여 GVIF의 값을 여러 매개 변수에서 비교할 수 있다고 제안합니다. "일반적인 분산 인플레이션 계수의 제곱근을 취하는 것은 비 유적이다"(John Fox의 An R 및 S-Plus Companion에서 Applied Regression까지). 따라서, 그것을 제곱하고 일반적인 VIF "거짓의 법칙"을 적용하는 것이 합리적입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.