데이터에서 특이 치를 제거해도 괜찮습니까?


33

데이터 집합에서 특이 치를 제거하는 방법을 찾고이 질문을 찾았습니다 .

그러나이 질문에 대한 의견과 답변 중 일부에서 사람들은 데이터에서 특이 치를 제거하는 것이 나쁜 습관이라고 언급했습니다.

내 데이터 세트에는 측정 오류로 인한 몇 가지 특이 치가 있습니다. 그들 중 일부가 아니더라도 데이터 포인트가 너무 많기 때문에 사례별로 확인하는 방법이 없습니다. 특이 치를 제거하는 것보다 통계적으로 유효합니까? 아니면, 또 다른 해결책은 무엇입니까?

내가 그 점들을 그대로두면 그것들은 예를 들어 현실을 반영하지 않는 방식으로 평균에 영향을 미칩니다 (대부분은 오류이기 때문에).

편집 : 피부 컨덕턴스 데이터로 작업하고 있습니다. 극단 값의 대부분은 누군가가 전선을 당기는 것과 같은 인공물로 인한 것입니다.

EDIT2 : 데이터 분석에 대한 나의 주요 관심은 두 그룹 사이에 차이가 있는지 확인하는 것입니다


3
그리고 무엇을하고 싶습니까? 데이터 요약? 예측 분석? 데이터 시각화? 두 그룹간에 큰 차이가 없음을 증명합니까? 모든 데이터 정리와 마찬가지로 일반적인 대답은 없습니다.
Piotr Migdal


5
저는 많은 통계를 다루는 엔지니어입니다. 그것은 면책 조항과 고백으로 제품을 제공해야 함을 의미했습니다. 우리는 완전히 "나쁜"포인트를 제거 할 수 있습니다. 누군가 와이어를 뽑았다는 것을 증명할 수 있습니까? 의도적 인 조치가 여러 개인 경우이를 묶고 묶을 수 있습니다. 그런 다음 클러스터에서 데이터를 분리 (풀 대 비 풀) 할 수 있으며 더 이상 특이 치가 아닙니다. 근본 원인이 무엇인지 증명할 수없는 경우 그 원인을 유지해야합니다. 그것은 변화에 대해 말하고, 그것은 큰 분석 덩어리입니다. 마음에 들지 않으면 제거 할 수 없습니다.
EngrStudent-복직 모니카

4
나는 당신이 잘못된 끝에서 시작한다고 생각합니다. 첫 번째 질문은 처음에 특이 치를 어떻게 식별합니까?
user603

5
임의로 식별 된 이상 값을 임의로 제거하는 것보다는 "전선을 뽑는 사람들과 같은 문제로 인해 오염이 발생하기 때문에 이러한 오염의 영향을 크게받지 않는 방법은 무엇입니까?"와 같은 것을 고려하는 것이 좋습니다.
Glen_b-복지국 Monica

답변:


26

주 분석에서 특이 치를 제외하지 않는 것이 좋습니다 (실제로 긍정적이지 않은 한 실수입니다). 민감도 분석을 통해 두 분석의 결과를 비교할 수 있습니다. 과학에서는 종종 그러한 특이점에 초점을 맞출 때 새로운 것을 정확하게 발견합니다.

더 자세히 설명하려면 실수로 곰팡이로 실험 한 오염에 기초하여 플레밍 (Fleming)의 페니실린 발견에 대해 생각해보십시오.

http://www.abpischools.org.uk/page/modules/infectiousdiseases_timeline/timeline6.cfm?coSiteNavigation_allTopic=1

가까운 과거 또는 현재를 살펴보면, 이상치 탐지 (outlier detection)가 종종 생명 의학 과학의 혁신을 안내하는 데 사용됩니다. 예를 들어 다음 기사를 참조하십시오 (일부 적절한 R 코드 포함).

http://www.la-press.com/a-comparison-of-methods-for-data-driven-cancer-outlier-discovery-and-a-article-a2599-abstract?article_id=2599

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3394880/

http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0102678

마지막으로, 일부 데이터를 제외 할 합리적인 근거가있는 경우 기본 분석이 아닌 민감도 분석을 통해 데이터를 처리 할 수 ​​있습니다. 예를 들어, 생물학적으로 그럴듯하지 않은 모든 값 (예 : 패혈증 환자의 섭씨 48도)을 제외 할 수 있습니다. 마찬가지로, 운동 인공물을 최소화하기 위해 주어진 환자에 대한 모든 첫 번째 및 마지막 측정을 제외 할 수 있습니다. 그러나 사전 지정된 기준을 기반으로하지 않는이 사후 작업을 수행하는 경우 데이터 매스 작업이 발생할 위험이 있습니다.


5
동의하지만, 나는이 답변을 어떻게 든 찬성 투표로 요약합니다. 아마도 당신은 예제를 제공하거나 특이 치에 초점을 맞출 때 그리고 어떻게 새로운 것들을 발견 할 수 있는지 보여줄 수 있습니까? 이것은 첫눈에 그다지 명백하지 않을 수 있습니다.
Tim

26

하나의 옵션은 특이 치를 제외하는 것이지만 IMHO는 그러한 점이 왜 유효하지 않은지 (거의 확실하게) 논쟁 할 수있는 경우에만 수행해야합니다 (예 : 측정 장비 고장, 측정 방법이 어떤 이유로 신뢰할 수없는 ...). 예를 들어 주파수 영역 측정에서 DC는 여러 다른 용어가 DC에 영향을 미치기 때문에 종종 무시됩니다. 이는 종종 관찰하려는 현상과 관련이 없습니다.

특이 치를 제거 할 때의 문제점은 특이점이 어느 포인트인지를 결정하려면 "좋은 데이터"가 무엇인지 아닌지에 대한 좋은 모델이 필요하다는 것입니다. 모델 (어떤 요소가 포함되어야하는지, 어떤 모델이 어떤 구조를 가지고 있는지, 노이즈의 가정이 무엇인지 등)에 대해 잘 모르면 특이 치에 대해 확신 할 수 없습니다. 이러한 특이 치는 모델이 잘못되었다는 것을 알려주는 샘플 일 수 있습니다. 다시 말해, 특이 치를 제거하면 새로운 통찰력을 얻는 대신 (잘못된!) 모델이 강화됩니다!

또 다른 옵션은 강력한 통계를 사용하는 것입니다. 예를 들어 평균 및 표준 편차는 특이 치에 민감하고 "위치"및 "확산"의 다른 메트릭은 더 강력합니다. 예를 들어 평균 대신 중간 값을 사용하십시오. 표준 편차 대신 사 분위 간 범위를 사용하십시오. 표준 최소 제곱 회귀 대신 강력한 회귀를 사용할 수 있습니다. 이러한 모든 강력한 방법은 특이 치를 강조하지 않지만 일반적으로 특이 치 데이터를 완전히 제거하지는 않습니다 (예 : 좋은 것).


5
좋은 대답입니다. 대부분의 사람들은 모든 기술이 모든 유형의 데이터에 적합한 것은 아니라는 것을 인식하지 못합니다 . 특이 치로 타인 된 데이터의 평균에 집중하는 것은 불행한 결과 중 하나입니다. 이와 같은 응답에서 모닝콜이 많을수록 모든 사람에게 더 좋습니다.
rumtscho

16

이상 치를 제거하는 것에 대한주의 이야기를 추가한다고 생각했습니다.

극성 오존층의 구멍 문제를 기억하십니까? 오존 농도를 측정하기 위해 기둥 위를 궤도에 놓은 위성이있었습니다. 위성으로부터 후 처리 된 데이터는 몇 년 동안 다른 오존 원이 오존이 없다는 것을 분명히 보여 주었음에도 불구하고 극성 오존이 정상 수준으로 존재한다고보고했다. 마침내 누군가가 위성 소프트웨어를 확인하기 위해 다시 갔다. 그것은 누군가가 코드가 원시 측정이 전형적인 역사적 수준에 대한 예상 범위 이내인지 확인하고, 범위를 벗어난 측정 그냥 악기 '스파이크'(즉 아웃 라이어)이라고 가정하는 기록했다고 밝혀, 자동 값을 수정합니다 . 다행히도 그들은 원시 측정을 기록했습니다. 그들을 확인하면서 그들은 구멍이 모두 함께보고 된 것을 보았다.


12
사건에 대한 언급을 포함시키는 것이 좋을 것입니다 . 왜 그들은 초기에이 현상을 발견하지 못했습니까? 불행히도 TOMS 데이터 분석 소프트웨어는 예상 측정에서 크게 벗어난 데이터 포인트를 표시하고 따로 설정하도록 프로그래밍되었으므로 알람을 설정해야하는 초기 측정을 간과했습니다. 요컨대, TOMS 팀은 과학자들이 예상했던 것보다 훨씬 더 심각하기 때문에 오존 고갈을 몇 년 전에 감지하지 못했습니다.
Johnny

3
이것은 좋은 이야기입니다. 그리고 하나는 많이 반복되었지만, 나에게 math.uni-augsburg.de/stochastik/pukelsheim/1990c.pdf 는 오해에 근거하여 그것을 신화로 확실하게 식별합니다. 우연히 두 개의 극이 있기 때문에 "극성 오존층"은 다시 써야합니다.
닉 콕스

3
권위있는 계정 Christie도 참조하십시오. M. 2001. 오존층 과학 관점의 철학. 케임브리지 : 케임브리지 UP
닉 콕스

7

'Outlier'는 분석에서 제거하기 위해 프로세스가 원하는 모양에 맞지 않는 데이터를 함께 수집하는 편리한 용어입니다.

나는 이상 치를 제거 하지 말 것을 제안한다 . 저의 배경은 통계적 프로세스 제어이므로 데이터 및 분포에 따라 런 차트 / 이동 상자 플롯 등을 사용하여 처리되는 대량의 자동 생성 시계열 데이터를 처리하는 경우가 많습니다.

특이점은 항상 '프로세스'에 대한 정보를 제공한다는 것입니다. 종종 하나의 프로세스로 생각하는 것은 실제로 많은 프로세스이며 크레딧을주는 것보다 훨씬 더 복잡합니다.

귀하의 질문에 예를 사용하면 많은 '프로세스'가있을 수 있다고 제안합니다. 로 인해 변화가있을 것입니다 ...

  • 하나의 컨덕턴스 장치로 채취 한 샘플
  • 컨덕턴스 장치 사이에서 채취 한 샘플
  • 피험자가 프로브를 제거했을 때
  • 피사체가 움직일 때
  • 신체 전체 또는 다른 샘플링 일 (모발, 수분, 기름 등) 사이의 한 피험자 피부 내 차이
  • 과목의 차이점
  • 직원 간 측정 및 변형을 수행하는 사람의 교육

이러한 모든 프로세스는 데이터에 추가 변형을 발생시키고 평균을 이동하고 분포의 모양을 변경합니다. 이들 중 다수는 개별 프로세스로 분리 할 수 ​​없습니다.

따라서 데이터 포인트를 '이상 값'으로 제거한다는 아이디어로 이동합니다 ... 분석에 포함하지 않으려는 특정 '프로세스'로 데이터 포인트를 명확히 지정할 수있을 때만 데이터 포인트를 제거합니다 . 그런 다음 포함되지 않은 이유가 분석의 일부로 기록되는지 확인해야합니다. 속성을 가정하지 마십시오. 데이터 수집 중에 관찰을 통해 추가 메모를 작성하는 것이 중요합니다.

나는 오류가 아니라 측정에서 다른 것으로 식별 된 다른 프로세스의 일부이기 때문에 '어쨌든 대부분의 오류이기 때문에 당신의 진술에 도전합니다.

귀하의 예에서, 분석하고 싶지 않은 별도의 프로세스에 귀속 될 수있는 데이터 포인트를 제외 하는 것이 합리적 이라고 생각합니다 .


6

이상 값을 제거하는 경우 대부분의 상황에서 자신이 수행 한 작업과 그 이유를 문서화해야합니다. 과학 논문 또는 규제 목적으로 작성된 경우 최종 통계가 할인 및 / 또는 거부 될 수 있습니다.

더 나은 솔루션은 데이터가 잘못되었다고 생각하는시기 (예 : 사람들이 와이어를 당기는 경우)를 식별 한 다음 사람들이 와이어를 당기는시기를 식별하여 해당 이유로 데이터를 가져 오는 것입니다. 이로 인해 일부 '좋은'데이터 포인트가 삭제 될 수도 있지만 이제는 분석 종료가 아닌 수집 엔드에서 해당 데이터 포인트에 태그를 지정하고 할인해야하는 '실제'이유가 있습니다. 당신이 그것을 깨끗하고 투명하게하는 한, 그것은 제 3 자에게 받아 들여질 가능성이 훨씬 더 높습니다. 당겨진 와이어와 관련된 데이터 포인트를 제거하고 여전히 이상 값을 얻는다면, 당겨진 와이어가 유일한 문제가 아니라는 결론을 내릴 수 있습니다. 추가적인 문제는 실험 설계 나 이론에있을 수 있습니다.

엄마가 BSc를 마치기 위해 대학으로 돌아 왔을 때 처음으로 한 실험 중 하나는 학생들이 프로세스가 어떻게 작동했는지에 대한 '나쁜'이론을 얻은 다음 실험을 진행하라는 명령이었습니다. 결과 '나쁜'데이터 포인트를 삭제하거나 수정 한 학생은 과제에 실패했습니다. 자신의 데이터가 (나쁜) 이론에 의해 예측 된 결과와 일치하지 않는다고 올바르게보고 한 사람들은 통과했습니다. 과제의 요점은 학생들이 예상했던 데이터가 아닐 때 데이터를 '수정'(위조)하지 않도록 가르치는 것이 었습니다.

요약 : 잘못된 데이터를 생성하는 경우 데이터가 아닌 실험을 수정하십시오.


5

확실히 도덕적 딜레마입니다. 한편, 왜 의심스러운 데이터 포인트 몇 개가 모델의 데이터를 대량의 데이터에 적합하게 망치게해야합니까? 반면, 모형의 현실 개념에 동의하지 않는 관측 값을 삭제하는 것은 일종의 검열입니다. @Egon의 요점으로, 그 이상치들은 그 현실에 대해 당신에게 무언가를 말하려고 할 수 있습니다.

통계 학자 Steve MacEachern의 프레젠테이션에서 그는 특이점을 "[연구중인 현상을 대표하지 않음"으로 정의했습니다.이 관점에서 이러한 의심스러운 데이터 포인트가 연구하려는 피부 컨덕턴스 현상을 대표하지 않는다고 생각되면 아마도 분석에 속하지 않을 수도 있습니다. 또는 그들이 머무를 수 있다면 그들의 영향을 제한하는 방법을 사용해야합니다. 같은 프리젠 테이션에서 MacEachern은 강력한 방법의 예를 제시했으며, 그 몇 가지 예에서 특이 치가 제거 된 고전적인 방법은 항상 이상 치가 포함 된 강력한 분석과 일치한다는 것을 기억합니다. 개인적으로, 나는 가장 편한 고전적인 기술로 일하는 경향이 있으며 특이한 결실의 도덕적 불확실성과 함께 살고 있습니다.


8
Box, Hunter & Hunter : "실험자 통계"는 화학 산업에서 특이 치가 종종 새로운 특허를 이끌어 냈다고 말합니다 . 새로운 특허를 폐기 하시겠습니까?
kjetil b halvorsen

2
아니, 나는 어떤 특허도 놓치지 않고 싶다. 그러나 나는 또한 "누군가가 전선을 당기는"것을 수용하기 위해 12 개의 사이클을 돌리고 싶지 않다. 그것은 거의 확실히 연구중인 현상이 아닙니다. 나는 특이점을 기회로 생각하는 것을 좋아하며, 간단하게 삭제해야 할 말은 적어도 코드가 그러한 삭제에 대한 문서를 제공한다는 것입니다. 반면 강력한 방법에서는 특이점이 다른 점과 공존합니다.
Ben Ogorek

2
특정 상황을 고려해야합니다. 수행하지 말아야 할 것은 이상치 않은 거부에 컨텍스트가없는 "규칙"을 적용하는 것입니다. 그러한 좋은 규칙은 존재하지 않습니다.
kjetil b halvorsen

1
문맥의 힘에 대해 내가 가장 좋아하는 점은 "스니커 바가 건강합니까?" 글쎄, 만약 당신이 삼일 동안 숲에서 길을 잃었고 땅에서 몇 개를 발견했다면, 그들은 결국 꽤 건강하다는 것이 밝혀졌습니다. 여기에서 인기있는 답변은 "당신이 죽지 않을 것이라고 절대 확신하지 않는 한 절대 스니커 바를 먹지 마십시오."라고 말합니다.
Ben Ogorek

0

내가 100 명을 무작위로 추출하고 그 중 한 사람이 빌 게이츠 인 경우, 빌 게이츠는 인구의 100 분의 1을 대표합니다.

잘린 평균은 평균 복권 수입이 $ 0임을 나타냅니다.


비정상적인 것은 없으며, 평균이 잘린 분포에 적합하지 않습니다.
Yves Daoust

-2

물론 정의에 따라 분포를 따르지 않고 기생 현상이므로 특이 치를 제거해야합니다.

실제 질문은 "어떻게 이상 값을 감지 할 수 있는가"입니다!


그러한 배포가 Cauchy라면?
AdamO

@AdamO : 물론 실제 질문은 남아 있습니다.
Yves Daoust

왜이 다운 보트인가?
Yves Daoust

3
(-1) 이것이 이론, 실례 또는 실천에 의해 제공된 적절한 기여라고 생각하지 않기 때문입니다. "기생 현상"이란 무엇이지만 데이터에 대한 시적 이해는 무엇입니까? 혈압, 비뇨기 나트륨 및 신경 영상을 다룰 때, 나는 고려 대상 인구를 대표하는 "이상치"를 매일 보게됩니다. 그것들을 제거하는 것은 중요한 편견의 원천이 될 수 있습니다. 그들이 "기생 현상"이라고 말하는 것은 위험한 통계 관행을 암시하고 기만적으로 가능하게합니다.
AdamO

@ 아담 : 당신은 내가 완전히 동의하는 이너를 유지하기 위해 옹호하고 있습니다.
Yves Daoust
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.