이 문제를 해결하기 전에 "이상치 제거"의 통계적 과실이 적용된 통계 교육학의 많은 부분에서 잘못 공표되었다는 것을 인식하는 것이 중요합니다. 전통적으로 특이 치는 높은 레버리지, 영향력있는 관측으로 정의됩니다. 데이터 분석에서 그러한 관찰을 식별 할 수 있고 식별해야하지만 이러한 조건만으로는 그러한 관찰을 제거 할 필요는 없습니다. "진정한 특이 치"는 실험 설계의 복제와 일치하지 않는 높은 레버리지 / 높은 영향 관찰입니다. 이와 같이 관측을하려면 해당 인구에 대한 전문 지식과 "데이터 생성 메커니즘"에 대한 과학이 필요합니다. 가장 중요한 측면은 잠재적 이상치의 식별 할 수 있어야한다는 것입니다 연역적 .
부트 스트랩 측면의 경우, 부트 스트랩은 샘플링 모집단에서 독립적이고 반복되는 드로우를 시뮬레이션합니다. 분석 계획에서 제외 기준을 미리 지정 하면 참조 부트 스트랩 샘플링 분포에 제외 된 값을 그대로 두어야합니다 . 데이터를 샘플링 한 후 제외를 적용하여 전력 손실이 발생하기 때문입니다. 그러나 미리 지정된 제외 기준이없고 사후 조정을 사용하여 특이 치가 제거되는 경우 분명히 반증하는 것처럼 이러한 값을 제거하면 특이 치 제거로 인한 추론에서 동일한 오류가 전파됩니다.
100 명의 표본화되지 않은 단순 무작위 표본에서 부와 행복에 대한 연구를 고려하십시오. "인구의 1 %가 세계 부의 90 %를 보유하고있다"는 말을한다면, 평균적으로 매우 영향력있는 가치를 볼 수있을 것입니다. 또한 기본적인 삶의 질을 넘어서서 더 큰 소득으로 인한 과도한 행복이 없었다고 가정하자 (비정기적인 추세). 따라서이 개인도 높은 레버리지입니다.
비 대응 데이터에 적합한 최소 제곱 회귀 계수는 이러한 데이터에서 모집단 평균 1 차 추세를 추정합니다. 행복이 중간 소득 수준에 가까운 사람들과 일치하는 샘플에서 우리의 1 명의 개인에 의해 크게 약화됩니다. 이 개체를 제거하면 최소 제곱 회귀 기울기가 훨씬 크지 만 회귀 변수의 분산이 줄어들므로 연관성에 대한 유추는 거의 동일합니다. 이 작업을 수행하는 데 어려움은 개인이 제외 될 조건을 미리 지정하지 않았다는 것입니다. 다른 연구자가이 연구 설계를 복제 한 경우, 평균적으로 한 명의 고소득층, 중간 정도의 행복한 개인을 채취하여 "손질 된"결과와 일치하지 않는 결과를 얻습니다.
우리가 있었던 경우 연역적 온건 소득 행복 협회에 관심을, 우리는, 우리가하고자하는 것이 예를 미리 지정된 "적은 $ 100,000 이상 연간 가구 소득을 버는 사람들을 비교"해야합니다. 따라서 특이 치를 제거하면 설명 할 수없는 연관성을 추정 할 수 있으므로 p- 값은 의미가 없습니다.
한편, 잘못 교정 된 의료 기기 및 면밀한 자체보고 설문 조사 거짓말을 제거 할 수 있습니다. 실제 분석을 수행하기 전에 제외 기준을 더 정확하게 설명할수록 그러한 분석 결과가 더 정확하고 일관되게 나타납니다.