VIF, 조건 지수 및 고유 값


15

현재 데이터 집합의 다중 공선 성을 평가하고 있습니다.

VIF의 임계 값과 조건 지수가 위 / 위에서 문제를 나타내는 것은 무엇입니까?

VIF : VIF 이 문제 라고 들었습니다 .10

두 개의 문제 변수를 제거한 후 VIF는 각 변수에 대해 입니다. 변수가 더 많은 치료를 필요로합니까, 아니면이 VIF가 괜찮게 보입니까?3.96

조건 지수 : 30 이상의 CI (조건 지수)가 문제라고 들었습니다. 가장 높은 CI는 16.66입니다. 이것이 문제입니까?

다른 문제:

  • 고려해야 할 다른 행동이 있습니까?
  • 명심해야 할 다른 것들이 있습니까?

1
질문을 명확히하십시오. 특히 @chl- "하나의 결정적인 문제로 명확한 질문을 작성하는 것이 좋습니다 (독립적으로 흥미 롭습니다). 그리고 다음 질문이 아닌 원래 질문과 관련된 추가 정보에 대해서는 설명을 예약해야합니다. 쪽으로". @shane- "현재의 질문과 관련하여 : 명확한 공통 스레드없이 여러 가지 다른 질문을하기 때문에 개선 될 수 있습니다. 일반적으로 다중 공선성에 관심이 있습니까? 아니면 VIF에 관심이 있습니까? 명확성을 위해. "

답변:


5

다중 공선 성 문제는 실제로 대부분의 계량 경제학 교과서에서 잘 연구되고 있습니다. 또한 위키 백과 에는 실제로 대부분의 주요 문제를 요약 한 좋은 기사가 있습니다.

실제로 다중 공선 성 문제는 매개 변수 불안정성에 대한 시각적 징후가 발생하는 경우 (대부분 의 비 (가난) 반전성에 의해 암시 됨) 다중 공선 성 문제를 염두에두기 시작합니다.엑스엑스 행렬 .

  1. 데이터의 더 작은 서브 샘플에 대한 롤링 회귀 또는 추정을 수행하는 동안 파라미터 추정치의 큰 변화
  2. 모수 추정치의 평균을 구한 경우 후자 보여도 후자는 의해 중요하지 않을 수 있습니다.에프
  3. 아르 자형2
  4. 조건 지수는 VIF 또는 CI가 문제가 남아 있음을 나타내지 않으므로 VIF의 대안 이므로이 결과에 대해 통계적 으로 만족할 수 있지만 ...

모델에 모든 변수가 있어야 할 수도 있기 때문에 이론적으로는 그렇지 않을 수도 있습니다. 관련 변수를 제외하면 (변수 생략 생략) 어쨌든 치우 치며 일관되지 않은 모수 추정이 이루어집니다. 반면에 분석에 기반을두기 때문에 모든 초점 변수를 포함시켜야 할 수도 있습니다. 데이터 마이닝 방식에서는 가장 적합한 것을 검색하는 데 더 기술적입니다.

따라서 대안을 명심하십시오 (내가 사용할 것).

  1. 더 많은 데이터 포인트 확보 (더 큰 데이터 세트의 경우 VIF 요구 사항이 더 작고 느리게 변화하는 경우 설명 변수가 중요하거나 시간 또는 단면의 일부 중요한 포인트에 대해 설명 변수가 변경 될 수 있음)
  2. 주요 구성 요소를 통해 지연 요소 검색 (후자는 직교 조합이므로 구성에 의해 다중 공 선형이 아니며 모든 설명 변수가 더 많이 )
  3. 능선 회귀 (모수 추정치에 작은 바이어스가 발생하지만 매우 안정적 임)

다른 트릭은 위에 언급 된 위키 기사에 있습니다.


3

Belsely 씨는 10 개가 넘는 CI는 중간 정도의 문제가 있음을 나타내고 30 개가 더 심각하다고 말했다.

또한 높은 조건 지수의 변수 집합이 공유하는 분산을 살펴 봐야합니다. 하나의 변수와 인터셉트가 관련된 공선성에 문제가 있는지 여부와 문제가되는 변수의 중심이 문제를 제거했는지 아니면 단순히 다른 곳으로 옮겼는지에 대한 논쟁이 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.