Cook의 거리 도표를 읽는 방법?


40

7, 16 및 29 지점이 영향력있는 지점인지 여부를 해결하는 방법을 아는 사람이 있습니까? 나는 Cook의 거리가 1보다 작기 때문에 그렇지 않다는 것을 읽었습니다. 맞아?

여기에 이미지 설명을 입력하십시오


1
다양한 의견이 있습니다. 그들 중 일부는 관측치 수 또는 매개 변수 수와 관련이 있습니다. 이들은 en.wikipedia.org/wiki/… 에 스케치되어 있습니다.
whuber

@ whuber 감사합니다. 이것은 데이터 탐색을 수행 할 때 항상 회색 영역입니다. 위의 데이터 포인트 16은 모델 결과에 큰 영향을 미치므로 유형 I 오류가 증가합니다.
Platypezid 2019

2
"유형 III"오류도 증가한다고 주장 할 수 있는데, 이는 (일반적으로 그리고 비공식적으로) 기본 확률 모델의 적용 불가능 성과 관련된 오류입니다.
whuber

@ whuber 네, 정말 맞습니다!
Platypezid 2019

답변:


43

일부 텍스트는 Cook의 거리가 1보다 높은 지점이 영향력있는 것으로 간주된다고 알려줍니다. 다른 텍스트는 또는 4 / ( N k - 1 ) 의 임계 값을 제공합니다. 여기서 N 은 관측치 수이고 k 는 설명 변수의 수입니다. 귀하의 경우 후자의 수식은 0.1 주위의 임계 값을 산출해야합니다.4/4/(케이1)케이

회귀 진단에 관한 그의 소책자에서 John Fox (1)는 수치 임계 값을 줄 때 다소 신중합니다. 그는 그래픽 사용을 권고하고 "나머지보다 실질적으로 더 큰 D의 값"을 갖는 점을 자세히 조사 할 것을 권고합니다. Fox에 따르면 그래픽 디스플레이를 향상시키기 위해 임계 값을 사용해야합니다.

귀하의 경우 관측치 7과 16은 영향력있는 것으로 간주 될 수 있습니다. 글쎄, 나는 적어도 그들을 자세히 살펴볼 것입니다. 관측치 (29)는 다른 두 개의 관측치와 실질적으로 다르지 않다.


(1) 폭스, 존 (1991). 회귀 진단 : 소개 . 세이지 출판물.


9
+1 명확한 요약. 나는 매개 변수를 떠날 데이터 세트에서 자신의 제거가 근본적으로 변하지 추정 할 때 그 영향력이 경우 일반적으로 문제가되지 않습니다 추가합니다 : 우리가 걱정하는 사람에 대한 그의 존재 정말 그들이다 않는 결과를 변경합니다.
whuber

1
@lejohn 귀하의 답변에 감사드립니다. Whuber는 귀하의 답변에서 매우 명확합니다. 이것은 매우 유익합니다. Wikipedia 페이지에서 Fox의 의견과 의견을 강조해 보시기 바랍니다.
Platypezid

29

케이케이+1β0β

여기에 또 하나의 가치가 있습니다. 관측 연구에서 예측 변수 공간에서 균일하게 샘플링하기가 어려운 경우가 많으며 주어진 영역에 몇 가지 점이있을 수 있습니다. 이러한 점은 나머지 부분과 다를 수 있습니다. 몇 가지 뚜렷한 사례가있는 경우 불만이있을 수 있지만 특이 치를 강등하기 전에 상당한 생각이 필요합니다. 예측 변수간에 합법적으로 상호 작용이 있거나 예측 변수 값이 극단이되면 시스템이 다르게 동작하도록 전환 될 수 있습니다. 또한 공선 예측 변수의 효과를 풀 수 있습니다. 영향력있는 점은 변장에서 축복이 될 수 있습니다.


6
+1 "예측 모델링을 수행하는 경우 쿡의 거리가 아마도 더 중요하지만, dfbeta는 설명 적 모델링에 더 중요합니다": 이것은 매우 유용한 조언입니다.
Anne Z.

안녕-흥미로운 토론. 그러나 더미 변수를 통합하여 예를 들어 관찰 결과 16에서 효과를 측정하는 것이 합리적이지 않습니까?
Pantera

@Pantera I 16을 제거하고 사전 및 사후
생략

Hi-관측 값을 제거하는 경우 관측 값이 잘못 측정되는 등의 "좋은"주장이 있는지 확인해야합니다. 통계적으로 문제를 일으켜 관측을 포기하면 데이터 마이닝에 가깝습니다.
Pantera
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.