“RMSE의 2.5 배”를 기준으로 특이 치 제거


13

에서 얼 카너먼과 Deaton (2010) , 저자는 다음과 같은 쓰기 :

이 회귀 분석에서는 분산의 37 %를 설명하고 RMSE (root mean square error)는 0.67852입니다. 특이 치와 믿기 어려운 소득 보고서를 제거하기 위해 로그 소득과 예측 차이의 절대 값이 RMSE의 2.5 배를 초과 한 관측치를 삭제했습니다.

이것이 일반적인 관행입니까? 그렇게하는 직관은 무엇입니까? 처음에는 잘 지정되지 않은 모델을 기반으로 특이 치를 정의하는 것이 다소 이상해 보입니다. 특이 치의 결정이 모델이 실제 값을 얼마나 잘 예측하는지가 아니라 그럴듯한 값을 구성하는지에 대한 이론적 근거를 기반으로하지 않아야합니까?


: Daniel Kahneman, Angus Deaton (2010) : 고소득은 삶의 평가를 향상 시키지만 정서적 안녕을 향상시킵니다. 국립 과학 아카데미 절차 2010 년 9 월, 107 (38) 16489-16493; DOI : 10.1073 / pnas. 1011492107


1
논문에서 인용 할 때는 항상 페이지 번호 가 포함 된 참조를 제공 하십시오 .
벤-복원 모니카

7
이것이 '공통 관행'인지 말할 수는 없지만 희망하지는 않습니다. '이상 값'을 자동으로 제거하는 것은 근본적으로 나쁜 생각입니다. 어쩌면 모델 또는 제거 기준이 좋지 않을 수도 있습니다. 어쩌면 무시해야 할 새로운 일이 있습니다 (침체 시작, 새로운 가능성 깨우기). // 데이터 입력 오류 또는 장비 고장에 대한 의심스러운 값을 추적 할 수 있거나 값이 단순히 차트가 틀린 경우 (16'2 "키 큰 사람, 지난 화요일 화요일 61 시간 청구 가능 시간이 25 분인 항공편, 25 분) ..이 모델에 적합하지 않기 때문에 SFO-ORD)하지만 나는 갔다 시작은 그런 식으로 파산 알고있다.
BruceET

7
이 접근법의 통계적 유효성은 그들이 RMSE에 대해보고하는 터무니없는 소수에 의해 반영됩니다.
Frans Rodenburg

이것은 몇 달 전에 물었던 질문에 대한 조잡하고 영웅적인 가정 솔루션 인 것 같습니다 : stats.stackexchange.com/questions/390051/…
Adrian

답변:


30

이 데이터를 삭제 한 이유는 인용 부호에 바로 나와있다. 그들이이 두 가지를 함께 언급한다는 사실은 적어도 그들의 특이 치 중 일부는 믿기 어려울만한 가치가 아니라는 것을 인정하고 있으며, 어떠한 경우에도 잔차가 높은 값이 "불가 치한 것으로 간주되어야하는 이유"에 대해서는 논란의 여지가 없다 "소득 가치. 이렇게하면 잔차가 회귀 모델에서 예상되는 것보다 높기 때문에 데이터 점을 효과적으로 제거합니다. 여기 에 또 다른 답변 에서 언급했듯이 이것은 현실이 모델 가정을 준수하도록 요구하고 해당 가정을 준수하지 않는 현실의 일부를 무시하는 것과 같습니다.

이것이 일반적인 관행이든 아니든 그것은 끔찍한 관행입니다.. 외부 데이터 포인트를 다루기가 어렵고 분석가가 (예를 들어 오류 조건에서 더 높은 첨도를 허용하는 모델을 사용하여) 적절하게 모델링하지 않기 때문에 발생하지 않는 현실의 일부만 제거합니다. 통계 모델링을 수행 할 수있는 능력을 준수합니다. 이 관행은 통계적으로 바람직하지 않으며 오차 항의 분산과 첨도를 체계적으로 과소 평가하는 추론으로 이어집니다. 이 백서의 저자는 이러한 특이 치를 제거하여 데이터의 3.22 %를 삭제했다고보고했습니다 (1649 페이지). 이러한 데이터 포인트의 대부분은 매우 높은 소득 이었으므로, 이는 고소득의 영향에 대한 강력한 결론을 내릴 수있는 능력에 대한 의문을 제기합니다 (이것은 논문의 목표 임).


어떻게 감히 비판 대니얼 카너먼을! 농담은 제쳐두고, 그것들은 매우 좋은 포인트 +1입니다.

11
Kahneman은 매우 훌륭한 심리학자이며, 저의 책은 일반적으로 즐겁고 도움이되었습니다. 그들은 각각 50 개의 노벨상을 수상 할 수있었습니다. "이상치"의 대량 제거가 끔찍한 통계 관행이라는 사실을 바꾸지는 않을 것입니다.
벤-복원 모니카

3
당연히 나는 당신에 동의합니다. 나는 그것이 말할 필요가 없다고 생각했다.
닉 콕스

1
@NickCox 당신은 소위 "노벨 기념상"을 의미합니다 : 그것이 당신이 노벨에 의해 설립되지 않았으며 그와는 아무 관련이 없다는 것을 확신합니다. 공식 명칭은 "알프레드 노벨의 기억에서 경제 과학의 Sveriges Riksbank 상"입니다.
amoeba는

1
당신은 내가 그것을 알고 확실하고 당신은 실제로 맞습니다. 항상 권위있는 EJMR은 한 번 나에 대해이 글을 실었습니다.
닉 콕스
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.