표준 편차를 사용하여 특이 값 탐지


27

내 질문에 따라 여기 , 내가 또는 아웃 라이어를 감지하는 표준 편차의 사용에 대한 강력한 견해가 있는지 궁금 (예를 들어 2 개 이상의 표준 편차가 특이하다 모든 데이터 포인트를).

나는 이것이 연구의 맥락에 의존한다는 것을 알고있다. 예를 들어, 48kg의 데이터 포인트는 확실히 아기의 체중에 대한 연구에서 특이하지만 성인의 체중에 대한 연구에서는 그렇지 않을 것이다.

특이 치는 데이터 입력 실수와 같은 여러 요인의 결과입니다. 제 경우에는 이러한 프로세스가 강력합니다.

내가 묻는 질문은 다음과 같습니다. 표준 편차를 사용하는 것이 특이 치를 탐지하는 올바른 방법입니까?


1
"제 경우에는 이러한 프로세스가 강력합니다"라고 말합니다. 무슨 뜻? 데이터 입력 실수가 없다고 확신하십니까?
Wayne

어떤 대답을 받아 들일지 확신 할 수없는 좋은 답변이 여기 있습니다! 이에 대한 모든 지침이 도움이 될 것입니다.
Amarald

일반적으로 귀하의 질문에 가장 직접적이고 명확하게 답변되는 답변을 선택하십시오. 말하기가 너무 어려운 경우, 가장 높은 표를 얻은 사람과 함께 갈 것입니다. 어느 쪽을 결정하는 것은 약간 고통 스럽지만 대답하는 데 시간을 보낸 사람에게 보상하는 것이 중요합니다.
Wayne

1
추신 : "이 프로세스는 강력하다"는 무슨 뜻인지 메모로 명확하게 설명해 주시겠습니까? 정규성 등에 중점을 둔 답변에는 중요하지 않지만 약간의 관련성이 있다고 생각합니다.
Wayne

3
특이 치는 모델이 아닙니다. 한 모델에서 특이한 특이 치는 다른 모델에서 완전히 평범한 점일 수 있습니다. 첫 번째 질문은 "왜 특이 치를 탐지하려고합니까?"입니다. (강력한 사용 방법과 같은 다른 작업을 수행하는 대신) 두 번째는 "특정 응용 프로그램에서 관찰을 더 특이하게 만드는 요소"입니다.
Glen_b-복지 주 모니카

답변:


26

일부 특이 치는 불가능 합니다. 아기 체중으로 48kg을 언급합니다. 이것은 분명히 오류입니다. 그것은 통계적인 문제가 아니라 실질적인 문제입니다. 48kg의 인간 아기는 없습니다. 모든 통계적 방법은 그러한 점을 식별합니다.

개인적으로 어떤 테스트 (@Michael이 권장하는 적절한 테스트조차)에 의존하기보다는 데이터를 그래프로 표시합니다. 특정 데이터 값 (또는 값)이 일부 가정 된 분포하에있을 가능성이 낮다는 것은 값이 잘못되었음을 의미하지 않으므로 값이 극단이기 때문에 자동으로 값을 삭제해서는 안됩니다.

또한 제안한 규칙 (평균에서 2 개의 SD)은 컴퓨터가 일을 쉽게하기 전에 사용했던 오래된 규칙입니다. N이 100,000이면 완벽한 정규 분포가 있더라도 평균으로부터 2 SD 이상의 상당히 많은 값을 기대할 수 있습니다.

그러나 배포가 잘못되면 어떻게 될까요? 인구에, 문제의 변수가되고, 가정 하지 정규 분포하지만보다 무거운 꼬리를 가지고?


1
가능한 것으로 생각되는 아기 체중의 가장 큰 가치는 무엇입니까?
mark999

2
모르겠어요 그러나 하나는 기록을 찾을 수 있습니다. answers.com에 따르면 (빠른 Google의) 23.12 파운드이며 거인을 가진 두 부모에게 태어났습니다. 내가 연구를하고 있다면, 더 확인해 볼 것입니다.
Peter Flom-Monica Monica 복원

데이터를 육안으로 검사 할 수없는 경우 (즉, 자동 프로세스의 일부일 수 있습니까?)
user90772

어떻게 든 자동화에 그래프를 추가하십시오.
Peter Flom-Monica Monica 복원

24

예. 악당을 "감지"하는 나쁜 방법입니다. 정규 분포 데이터의 경우, 이러한 방법은 완벽하게 좋은 (아직 약간 극단적 인) 관측치의 5 %를 "이상치"라고 부릅니다. 또한 표본 크기가 n 인 표본을 특이 치라고 부르기 위해 극도로 높거나 낮은 관측치를 찾는 경우 실제로 극한 순서 통계를보고있는 것입니다. 정규 분포 샘플의 최대 값과 최소값은 정규 분포가 아닙니다. 따라서 테스트는 극단 분포를 기반으로해야합니다. 그것이 내가 여러 번 언급 한 것처럼 Grubbs의 테스트와 Dixon의 비율 테스트가하는 것입니다. 특이 치에 대해 적절한 테스트를 사용하더라도 관측이 극단적으로 극단적이기 때문에 거부되지 않아야합니다. 극단적 인 관찰이 먼저 발생한 이유를 조사해야합니다.


1
낮은 p- 값을 기준으로 H0를 거부하는 것처럼 "나쁜"것입니다.
Leo

16

잠재적 특이 치의 평균에서 표준 편차의 수를 묻는 경우 특이 치 자체가 SD를 높이고 평균값에도 영향을 미친다는 것을 잊지 마십시오. N 값이있는 경우 평균에서 SD로 나눈 거리의 비율은 (N-1) / sqrt (N)을 초과 할 수 없습니다. 물론 이것은 작은 샘플에서 가장 중요합니다. 예를 들어, N = 3이면 평균에서 특이 값이 1.155 * SD를 초과 할 수 없으므로 평균에서 2SD를 초과하는 값은 불가능합니다. (물론, 현재 데이터에서 샘플 SD를 계산하고 있으며 인구 SD를 알 이론적 인 이유가 없다고 가정합니다).

이를 고려하여 Grubbs 테스트 의 임계 값을 계산 했으므로 샘플 크기에 따라 다릅니다.


12

나는 문맥이 전부라고 생각합니다. 예를 들어, 48kg의 아기가 잘못되어 있고, 2 개의 표준 편차를 사용하면이 경우를 잡을 수 있습니다. 그러나 2 개의 표준 편차 (또는 다른 SD의 배수)를 사용하는 것이 다른 데이터에 적합하다고 생각할 이유가 없습니다. 예를 들어 지표수에서 살충제 잔류 물을보고있는 경우 2 표준 편차를 넘는 데이터가 일반적입니다. 비가 많이 오거나 최근의 살충제 사용 등으로 인해 평균과는 거리가 멀어도 특히 높은 수치는 "이상치"가 아닙니다. SD, 또는 3.1415927 × SD?)이지만 솔직히 그러한 규칙은 방어하기 어렵고, 검사하는 데이터에 따라 성공 또는 실패가 변경됩니다. 나는 주관에도 불구하고 판단과 논리를 사용한다고 생각합니다. 임의의 규칙을 사용하는 것보다 특이 치를 제거하는 더 좋은 방법입니다. 이 경우 48kg 이상 값을 감지하기 위해 2 × SD가 필요하지 않아 추론 할 수있었습니다. 그것은 훌륭한 방법이 아닌가? 당신이 그것을 추론 할 수없는 경우에는 임의의 규칙이 더 낫습니까?

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.