아마도 전체 데이터 세트가 포함 된 원래 모델을 사용할 것입니다. 나는 일반적으로 이러한 것들을 민감도 분석을 촉진한다고 생각합니다. 즉, 그들은 당신이 어리석은 일로 인해 주어진 결과를 얻지 못하도록 확인해야 할 것을 지시합니다. 귀하의 경우 잠재적으로 영향력이있는 점이 있지만 모델이없는 모델을 다시 실행하면 (적어도 관심있는 측면과 관련하여) 실질적으로 동일한 대답을 얻습니다. 다시 말해, 원하는 임계 값을 사용하십시오. '진정한'버전이 아니라 검사만으로 모델을 다시 작성하는 것입니다. 다른 사람들이 잠재적 특이 치에 대해 충분히 우려 할 것이라고 생각되면 두 모형 적합을 모두보고 할 수 있습니다. 당신이 할 말은
내 결과는 다음과 같습니다. 이 그림은 몇 가지 특이하지만 영향력이 큰 관측으로 인해서 만 나타날 것이라고 우려 할 수 있습니다. 이것들은 동일한 모델의 결과이지만 그 관찰은 없습니다. 실질적인 차이는 없습니다.
그것들을 제거하고 두 번째 모델을 기본 결과로 사용할 수도 있습니다. 결국 원래 데이터 세트를 유지하는 것은 서브 세트와 마찬가지로 모델에 속하는 데이터에 대한 가정에 해당합니다. 그러나 사람들은 심리적으로 누군가가 실제로 부패한 의도없이 자신을 설득하는 사후 조정 (일부 관찰 삭제)과 함께 가기가 너무 쉽다는 이유로보고 된 결과에 대해 매우 회의적 일 가능성이 높습니다. 그들이 가장 기대했던 결과. 항상 전체 데이터 세트를 사용함으로써 그 가능성을 선점하고 프로젝트 (예 : 검토 자)에게 프로젝트에서 일어나고 있지 않은 사람들을 보장 할 수 있습니다.
여기서 또 다른 문제는 사람들이 ' 거품을 쫓는 '것입니다. 잠재적 인 특이 치를 제거하고 모형을 다시 실행하면 잠재적 인 특이 치로서 새롭고 다른 관측치가 표시되는 결과가 나타납니다. 몇 번 반복해야합니까? 이에 대한 표준 응답은 원래의 전체 데이터 세트를 유지하고 대신 강력한 회귀 를 실행해야한다는 것입니다. 이것은 다시 감도 분석으로 이해 될 수 있습니다.