쿡의 거리 차단 값


9

나는 회귀에 큰 영향을 미치는 특이 치를 식별하기 위해 요리사의 거리를 읽었습니다. Cook의 원래 연구에서 그는 컷오프 비율 1이 영향 요인을 식별하는 데 필적 할 것이라고 말합니다. 그러나 다양한 다른 연구에서4n 또는 4nk1 컷오프로.

내 연구에서 내 잔차 중 D가 1보다 높은 것은 없습니다. 4n 컷오프로 (4149=.026)영향 요인으로 간주되는 다양한 데이터 요소가 있습니다. 이러한 데이터 점을 제거하면 일반적인 선형 회귀 분석에 차이가 있는지 테스트하기로 결정했습니다. 나의 모든 IV는 그 중요성을 유지했으며 명백한 변화는 없었다.

모든 데이터 포인트를 유지하고 차단율 1을 사용해야합니까? 아니면 제거 하시겠습니까?


Baltagi (2011) 계량 경제학, 5e. 8 장, 섹션 8.1. 그는 Cook의 거리에서 파생 된 또 다른 측정법을 제안하고, 또한 Var-Covar 매트릭스에서 영향력있는 obs의 왜곡 / 영향을 확인합니다. 추정값이 크게 변하지 않기 때문에 필요할 수도 있습니다.
SirAlex

10
이 진단을 기반으로 데이터를 제거해서는 안됩니다. 그것의 목적은 그것들과 그것들이 당신의 분석에 미치는 영향에 대해 생각 하도록 돕는 것 입니다.
whuber

답변:


5

아마도 전체 데이터 세트가 포함 된 원래 모델을 사용할 것입니다. 나는 일반적으로 이러한 것들을 민감도 분석을 촉진한다고 생각합니다. 즉, 그들은 당신이 어리석은 일로 인해 주어진 결과를 얻지 못하도록 확인해야 할 것을 지시합니다. 귀하의 경우 잠재적으로 영향력이있는 점이 있지만 모델이없는 모델을 다시 실행하면 (적어도 관심있는 측면과 관련하여) 실질적으로 동일한 대답을 얻습니다. 다시 말해, 원하는 임계 값을 사용하십시오. '진정한'버전이 아니라 검사만으로 모델을 다시 작성하는 것입니다. 다른 사람들이 잠재적 특이 치에 대해 충분히 우려 할 것이라고 생각되면 두 모형 적합을 모두보고 할 수 있습니다. 당신이 할 말은

내 결과는 다음과 같습니다. 이 그림은 몇 가지 특이하지만 영향력이 큰 관측으로 인해서 만 나타날 것이라고 우려 할 수 있습니다. 이것들은 동일한 모델의 결과이지만 그 관찰은 없습니다. 실질적인 차이는 없습니다.

그것들을 제거하고 두 번째 모델을 기본 결과로 사용할 수도 있습니다. 결국 원래 데이터 세트를 유지하는 것은 서브 세트와 마찬가지로 모델에 속하는 데이터에 대한 가정에 해당합니다. 그러나 사람들은 심리적으로 누군가가 실제로 부패한 의도없이 자신을 설득하는 사후 조정 (일부 관찰 삭제)과 함께 가기가 너무 쉽다는 이유로보고 된 결과에 대해 매우 회의적 일 가능성이 높습니다. 그들이 가장 기대했던 결과. 항상 전체 데이터 세트를 사용함으로써 그 가능성을 선점하고 프로젝트 (예 : 검토 자)에게 프로젝트에서 일어나고 있지 않은 사람들을 보장 할 수 있습니다.

여기서 또 다른 문제는 사람들이 ' 거품을 쫓는 '것입니다. 잠재적 인 특이 치를 제거하고 모형을 다시 실행하면 잠재적 인 특이 치로서 새롭고 다른 관측치가 표시되는 결과가 나타납니다. 몇 번 반복해야합니까? 이에 대한 표준 응답은 원래의 전체 데이터 세트를 유지하고 대신 강력한 회귀 를 실행해야한다는 것입니다. 이것은 다시 감도 분석으로 이해 될 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.