'Outlier'는 분석에서 제거하기 위해 프로세스가 원하는 모양에 맞지 않는 데이터를 함께 수집하는 편리한 용어입니다.
나는 이상 치를 제거 하지 말 것을 제안한다 . 저의 배경은 통계적 프로세스 제어이므로 데이터 및 분포에 따라 런 차트 / 이동 상자 플롯 등을 사용하여 처리되는 대량의 자동 생성 시계열 데이터를 처리하는 경우가 많습니다.
특이점은 항상 '프로세스'에 대한 정보를 제공한다는 것입니다. 종종 하나의 프로세스로 생각하는 것은 실제로 많은 프로세스이며 크레딧을주는 것보다 훨씬 더 복잡합니다.
귀하의 질문에 예를 사용하면 많은 '프로세스'가있을 수 있다고 제안합니다. 로 인해 변화가있을 것입니다 ...
- 하나의 컨덕턴스 장치로 채취 한 샘플
- 컨덕턴스 장치 사이에서 채취 한 샘플
- 피험자가 프로브를 제거했을 때
- 피사체가 움직일 때
- 신체 전체 또는 다른 샘플링 일 (모발, 수분, 기름 등) 사이의 한 피험자 피부 내 차이
- 과목의 차이점
- 직원 간 측정 및 변형을 수행하는 사람의 교육
이러한 모든 프로세스는 데이터에 추가 변형을 발생시키고 평균을 이동하고 분포의 모양을 변경합니다. 이들 중 다수는 개별 프로세스로 분리 할 수 없습니다.
따라서 데이터 포인트를 '이상 값'으로 제거한다는 아이디어로 이동합니다 ... 분석에 포함하지 않으려는 특정 '프로세스'로 데이터 포인트를 명확히 지정할 수있을 때만 데이터 포인트를 제거합니다 . 그런 다음 포함되지 않은 이유가 분석의 일부로 기록되는지 확인해야합니다. 속성을 가정하지 마십시오. 데이터 수집 중에 관찰을 통해 추가 메모를 작성하는 것이 중요합니다.
나는 오류가 아니라 측정에서 다른 것으로 식별 된 다른 프로세스의 일부이기 때문에 '어쨌든 대부분의 오류이기 때문에 당신의 진술에 도전합니다.
귀하의 예에서, 분석하고 싶지 않은 별도의 프로세스에 귀속 될 수있는 데이터 포인트를 제외 하는 것이 합리적 이라고 생각합니다 .