알려진 속성이있는 알려진 분포에서 데이터를 가져 오는 한 관찰 된 프로세스에서 생성되지 않을 이벤트로 특이 치를 정의 할 수 있습니다 ( "너무 가능성이 없다"고 판단되는 경우 모든 가설 테스트는)입니다.
그러나이 접근 방식은 두 가지 수준에서 문제가 있습니다. 데이터는 알려진 속성을 가진 알려진 분포에서 나온 것으로 가정하고 특이 치가 일부 마법의 요정에 의해 데이터 세트로 밀수 된 데이터 포인트로 간주 될 위험이 있습니다.
마법의 데이터 선이 없으면 모든 데이터가 실험에서 나온 것이므로 실제로 특이 치를 가질 수는 없으며 이상한 결과를 초래할 수 있습니다. 이는 기록 오류 (예 : 4 만원에 400000 침실 주택), 체계적인 측정 문제 (물체가 경계에 너무 가까우면 이미지 분석 알고리즘이 넓은 영역을보고 함) 실험 문제 (때로는 결정이 용액에서 석출 됨, 신호가 매우 높음) 또는 시스템의 기능 (셀이 두 개가 아닌 세 개로 나 sometimes 수 있음)도 있지만, 드물고 연구하고 있기 때문에 아무도 고려하지 않은 메커니즘의 결과 일 수 있습니다. 이것은 당신이하는 일 중 일부가 아직 알려지지 않았다는 것을 의미합니다.
이상적으로는 모든 이상 값을 조사하는 데 시간이 걸리고 왜 모델에 적합하지 않은지 이해 한 후에 만 데이터 세트에서 데이터 세트를 제거하십시오. 이유는 실험에 크게 의존한다는 점에서 시간이 오래 걸리고 주관적이지만 대안은 더 나쁩니다. 특이 치의 출처를 모르는 경우 특이 치가 결과를 "지저 치게"할 수 있습니다. 또는 "수학적으로 엄격한"접근 방식을 정의하여 이해 부족을 숨길 수 있습니다. 다시 말해, "수학적 엄격 성"을 추구함으로써 당신은 큰 영향을받지 않는 것과 하늘에 들어 가지 않는 것 중에서 선택합니다.
편집하다
당신이 가지고있는 것이 숫자가 어디에서 왔는지 모르는 숫자의 목록이라면, 모든 데이터가 inliers 인 분포를 항상 가정 할 수 있기 때문에 일부 데이터 포인트가 특이 치인지 여부를 알 수있는 방법이 없습니다.