종종 통계 분석가에게 세트 데이터 세트를 전달하고 선형 회귀와 같은 기술을 사용하여 모델에 적합하도록 요청합니다. 매우 자주 데이터 세트에 "아, 예, 우리는 이러한 데이터 포인트 중 일부를 수집하는 것을 엉망으로 만들었습니다.
이 상황은 잘못된 데이터 일 수있는 특이 치의 존재에 의해 크게 영향을받는 회귀 적합을 초래합니다. 다음과 같이 주어진다 :
과학적, 도덕적 관점에서 "맞춤을 나쁘게 보이게하는 것"이외의 다른 이유로 데이터를 버리는 것은 위험합니다.
실제로 데이터를 수집 한 사람들은 "이 데이터 세트를 생성 할 때 정확히 어느 지점을 엉망으로 만들었습니까?"와 같은 질문에 대답 할 수없는 경우가 많습니다.
선형 회귀 분석에서 특이 치를 제외하기위한 기초로 사용할 수있는 통계 테스트 또는 경험 법칙은 무엇입니까?
다중 선형 회귀 분석에 대한 특별한 고려 사항이 있습니까?