특이 치의 엄격한 정의?


44

사람들은 종종 통계에서 특이 치를 다루는 것에 대해 이야기합니다. 내가 알 수있는 한 이상치의 정의는 완전히 주관적이라는 것입니다. 예를 들어 임의의 임의 변수의 실제 분포가 매우 두꺼운 꼬리 나 이봉형이면 특이 치를 탐지하기위한 표준 시각화 또는 요약 통계는 표본 추출하려는 분포의 일부를 잘못 제거합니다. 특이 치 (존재하는 경우)에 대한 엄격한 정의는 무엇이며, 분석에 불합리한 양의 주관성을 도입하지 않고 어떻게 특이 치를 처리 할 수 ​​있습니까?


특정 배포판에 대해 알고 싶다면 예제에 대해 문의하십시오. 상황에 따라 다를 수 있습니다.
John

8
글쎄, 난 당신이있을 것이라는 점을 기대하는 rigorous definition of an outlier사용자가 정의 할 수 있습니다 때 unreasonable amounts of subjectivity;-) 객관적인 방식으로, 감사합니다
먹을

1
그러나 정의는 기본 배포 및 상황에 따라 달라질 수 있습니다. 나는 ± 1.5 IQR 또는 3 SD 또는 이와 같은 것을 말할 수 있습니다. 그러나 반응 시간과 정확도라는 두 가지 측정 방법이 있다면 완전히 다른 접근법을 취할 수 있습니다. RT가 어느 정도의 정확도로 조절되었다고 말할 수 있습니다. 그것들은 모두 훌륭하고 수학적으로 엄격하며 다른 응용과 의미를 가질 수 있습니다.
John

2
특이점에 대한 많은 엄격한 정의가 있습니다. 그러나 그 중에서 선택은 임의적으로 보일 수 있습니다. 그러나 이것은 통계가 각 문제가 하나의 정답을 갖는 주제라는 오해의 일부라고 생각합니다.
Peter Flom-Monica Monica 복원

답변:


23

알려진 속성이있는 알려진 분포에서 데이터를 가져 오는 한 관찰 된 프로세스에서 생성되지 않을 이벤트로 특이 치를 정의 할 수 있습니다 ( "너무 가능성이 없다"고 판단되는 경우 모든 가설 테스트는)입니다.

그러나이 접근 방식은 두 가지 수준에서 문제가 있습니다. 데이터는 알려진 속성을 가진 알려진 분포에서 나온 것으로 가정하고 특이 치가 일부 마법의 요정에 의해 데이터 세트로 밀수 된 데이터 포인트로 간주 될 위험이 있습니다.

마법의 데이터 선이 없으면 모든 데이터가 실험에서 나온 것이므로 실제로 특이 치를 가질 수는 없으며 이상한 결과를 초래할 수 있습니다. 이는 기록 오류 (예 : 4 만원에 400000 침실 주택), 체계적인 측정 문제 (물체가 경계에 너무 가까우면 이미지 분석 알고리즘이 넓은 영역을보고 함) 실험 문제 (때로는 결정이 용액에서 석출 됨, 신호가 매우 높음) 또는 시스템의 기능 (셀이 두 개가 아닌 세 개로 나 sometimes 수 있음)도 있지만, 드물고 연구하고 있기 때문에 아무도 고려하지 않은 메커니즘의 결과 일 수 있습니다. 이것은 당신이하는 일 중 일부가 아직 알려지지 않았다는 것을 의미합니다.

이상적으로는 모든 이상 값을 조사하는 데 시간이 걸리고 왜 모델에 적합하지 않은지 이해 한 후에 만 ​​데이터 세트에서 데이터 세트를 제거하십시오. 이유는 실험에 크게 의존한다는 점에서 시간이 오래 걸리고 주관적이지만 대안은 더 나쁩니다. 특이 치의 출처를 모르는 경우 특이 치가 결과를 "지저 치게"할 수 있습니다. 또는 "수학적으로 엄격한"접근 방식을 정의하여 이해 부족을 숨길 수 있습니다. 다시 말해, "수학적 엄격 성"을 추구함으로써 당신은 큰 영향을받지 않는 것과 하늘에 들어 가지 않는 것 중에서 선택합니다.

편집하다

당신이 가지고있는 것이 숫자가 어디에서 왔는지 모르는 숫자의 목록이라면, 모든 데이터가 inliers 인 분포를 항상 가정 할 수 있기 때문에 일부 데이터 포인트가 특이 치인지 여부를 알 수있는 방법이 없습니다.


3
그러나 실험에서 모든 특이 치가 생성되는 것은 아닙니다. 나는 지역에서 부동산 정보 수집 (판매 가격, 침실 수, 평방 피트 등)을 포함하는 대규모 데이터 세트로 작업했으며, 매번 데이터 입력 실수가 있었고 400,000 개의 침실 주택은 4 달러에 해당합니다. 특이 치를 결정하는 목표의 일부는 데이터에서 생성 할 수 있는지 또는 입력 오류인지 여부를 확인하는 것입니다.
Christopher Aden

2
@ Christopher Aden : 실험 과정의 그 부분을 고려할 것입니다. 기본적으로 특이 치를 제거하려면 데이터가 생성 된 방식을 이해해야합니다. 즉, 정당한 이유없이 특이 치를 제거하지 않아야합니다. 그렇지 않으면 데이터를 스타일링하는 것입니다. 나는 이것을 조금 더 잘 반영하기 위해 대답을 편집했다.
조나스

이것은 완벽하게 합리적이지만, 실제 분포가 무엇인지에 대해 이미 상당한 양의 사전 지식이 있다고 가정합니다. 나는 당신이하지 않는 시나리오와 관련하여 더 많이 생각하고 있었고 꼬리가 매우 무겁거나 바이 모달 일 수 있습니다.
dsimcha

@ dsimcha :이 경우 특이 치를 식별 할 수 없다고 생각합니다 (내 편집 참조).
Jonas

2
@ dsimcha-당신은 항상 사전 지식이 있습니다! 데이터가 어떻게 제공 되었습니까? 당신 항상 그렇게 많이 알고 있습니다. 데이터는 마술처럼 나타나지 않습니다. 그리고 당신은 항상 잠정적 인 가정을 할 수 있습니다. 이러한 가정을 기반으로 한 "이상치"는 기본적으로 가정의 어떤 것이 잘못되었다는 단서를 제공합니다. "상대적"(항상 상대적)을 연구함으로써 모델을 향상시킬 수 있습니다.
확률

13

특이 치를 제거하는 것이 주관적인 운동처럼 보일 수 있지만 그것이 틀렸다는 것을 의미하지는 않습니다. 데이터 분석과 관련된 모든 결정에 대해 항상 엄격한 수학적 이유가 있어야한다는 강박적인 요구는 종종 주관적인 운동으로 판명 된 인공적인 엄격함의 얇은 베일 일뿐입니다. 이것은 모든 상황에 동일한 수학적 근거를 적용하려는 경우 특히 그렇습니다. (모든 것에 대해 방탄적인 명확한 수학적 규칙이 있다면 통계학자는 필요하지 않습니다.)

예를 들어, 롱테일 분포 상황에서는 특이 치가 포함 된 하나의 기본 관심 분포가 있는지 또는 특이 치 중 하나만 포함하는 두 가지 기본 관심 분포가 있는지 여부를 숫자로 결정하는 보장 된 방법이 없습니다. 또는 천국은 데이터의 실제 배포 만 금지합니다.

더 많은 데이터를 수집할수록 분포의 확률이 낮은 영역에 더 많이 도달합니다. 20 개의 샘플을 수집하면 z 점수가 3.5 인 값을 얻을 가능성이 거의 없습니다. 10,000 개의 샘플을 수집하면 샘플을 얻을 가능성이 높으며 분포의 자연스러운 부분입니다. 위의 내용을 감안할 때 무언가를 배제하기 위해 극단적 인 이유를 어떻게 결정합니까?

일반적으로 분석에 가장 적합한 방법을 선택하는 것은 종종 주관적입니다. 그것이 비합리적으로 주관적인지 여부는 결정에 대한 설명과 이상치에 달려 있습니다.


+1 이상치에 관한 책 바넷과 루이스 "데이터 세트의 특이 치 [는] 관측치 (또는 관측치의 일부) "라고 말하고있다. . 7]. 그들은 계속해서 "관찰 측에서 일부 관측이 관찰되는지 여부를 조사하는 데 주관적인 판단의 문제"라고 지적했다. "
whuber

여기서 "책"은 약간 모호합니다. 나는 바넷과 루이스를 최고의 논문으로 생각하지만 특이 치에 관한 유일한 책은 아닙니다. amazon.com/Outlier-Analysis-Charu-C-Aggarwal/dp/1461463955 가 최근입니다. DM Hawkins의 오래된 책도 있습니다.
Nick Cox

9

데이터를 생성하는 기본 프로세스의 모델을 가정하지 않고 특이 치를 정의하는 것이 가능하지 않다고 생각합니다. 이러한 모델이 없으면 데이터가 비정상적인지 "잘못된"것인지를 결정하기위한 참조 프레임이 없습니다. 내가 찾은 특이 치의 정의는 특이 치가 다른 방식으로 잘 수행되는 모형과 조정할 수없는 관측치라는 것입니다.


2
흠 ... 그의 EDA 텍스트에서 John Tukey는 모델을 전혀 사용하지 않고 특이 치를 구체적으로 정의했습니다.
whuber

7
모델없이 특이 치를 정의 할 수 있지만 이러한 정의가 도움이되지 않는 것으로 나타났습니다. BTW는 모델별로 데이터에 명시 적으로 맞는 통계 모델을 의미하지는 않습니다. 특이 치에 대한 정의는 어떤 종류의 값을 기대하고 어떤 종류의 값을 기대하지 않는지를 가정해야합니다. 이러한 가정 (예 : 모델)을 명시 적으로 작성하는 것이 더 좋다고 생각합니다. 또한 EDA에서 데이터를 탐색하고 있다는 점이 있는데, EDA에 대한 특이 치의 정의는 최종 모델 피팅과 매우 다를 수 있습니다.
Dikran Marsupial

6

여기에는 훌륭한 답변이 많이 있습니다. 그러나 두 가지 질문이 혼동되고 있음을 지적하고 싶습니다. 첫 번째는 '이상 점 (outlier)이란 무엇입니까?'이며,보다 구체적으로 "정확한 정의"를 제공하는 것입니다. 이것은 간단하다 :

특이 치는 연구 / 나머지 데이터와는 다른 모집단 / 분포 / 데이터 생성 프로세스에서 비롯된 데이터 포인트입니다.

두 번째 질문은 '데이터 포인트가 특이 치라는 것을 어떻게 알 수 있습니까?'입니다. 불행히도 이것은 매우 어렵다. 그러나 여기에 주어진 답변 (정말로 훌륭하고 개선 할 수없는)은 그 일에 상당히 도움이 될 것입니다.


1
99(0,1)2.52.5(4,1)21402
whuber

1
@ whuber, 그렇습니다. 나는 말할 것입니다 당신이 (당신이 실질적으로 운영 무엇을 의미하는이다, 나는 의심)를 통지하지 않을 것 있지만, 이상치 (outlier).
gung-Monica Monica 복원

1
당신이 만드는 구별에 감사드립니다. 방금 당신의 정의 와이 스레드에서 특이점에 대한 다른 정의 또는 대부분의 설명 사이의 뚜렷한 대조를 지적하고 싶었습니다. 만족스러운 실제 절차로 이어질 수는없는 것 같습니다. 데이터 집합의 상당 부분이 "외부 적"일 수 있지만이를 감지하거나 해결할 방법이 없어도 항상 수용해야합니다.
whuber

@ whuber, 나는 전적으로 동의합니다. 나는 이것이 가설 검정과 거의 유사하다고 본다. (예를 들어, 2 개의 그룹은 매우 작고, 감지 할 수없는 양에 의해 다를 수 있거나, 중간 정도의 양에 의해 다를 수 있지만, 최종적으로 얻은 샘플은 우연히 매우 유사했습니다. 그럼에도 불구하고 이론적 인 관점에서 구별을 이해하고 유지할 가치가 있습니다.
gung-모니 티 복원

1
@ whuber, 당신이 맞아요. 어떤 사람들은이 차이를 만들지 만, 많은 사람들은이 아이디어에 대해 명확하지 않습니다. 내 입장은 오염 물질 이외의 다른 "이상적인"현실이 없다는 것이다. 그럼에도 불구하고, 사람들은 또한 결과가 그들 자신에 의해서만 진행되는 경우 (실제인지 아닌지에 따라) 문제를 요점에 대해 우려하는 것으로 생각해야하며, 따라서 결과는 매우 취약합니다. 간단히 말해, 모집단에서 왔고 결과를 독창적으로 이끌어 내지 않는 포인트에 대해 걱정할 이유가 없습니다. 이 두 가지 문제를 다루고 나면 "outlier"에 남은 것은 없습니다.
gung-모니 티 복원

6

정의 1 : 이미 언급했듯이 동일한 프로세스 (예 : 프로세스 A)를 반영하는 데이터 그룹의 특이 치는 프로세스 A 의 결과 가 아닐 수 있는 관측치 (또는 일련의 관측치)입니다 .

이 정의는 확실히 프로세스 A의 가능성 함수 (따라서 모델)의 추정과 의미가없는 것을 설정하는 것 (즉, 어디에서 멈출지를 결정하는 것)을 포함합니다. 이 정의는 내가 여기에 준 대답의 근본입니다 . 그것은 중요성 또는 적합도에 대한 가설 검정 의 아이디어와 더 관련 이 있습니다 .

xGx

이 정의에는 "주어진 모델"과 정확도 측정이 포함됩니다. 이 정의는 실제적인 측면에서 나온 것이지, 이상치의 기원에 더 가깝다고 생각합니다. Origin에서 특이점 탐지는 강력한 통계를 위한 도구였습니다 .

첫 번째 정의에서 우도를 계산하면 점수의 모델링 및 계산이 필요하다는 것을 이해하면 이러한 정의를 매우 유사하게 만들 수 있습니다. :)


2

특이 치는이 데이터를 생성하는 프로세스에 대한 현재의 이해를 감안할 때 나에게 불편한 데이터 포인트입니다.

나는이 정의가 가능한 한 엄격하다고 믿는다.


이것을 John Tukey의 정의와 달리 ( "외부"라는 용어를 사용했습니다.) "일부 값 배치를 볼 때 특정 값이 다른 값을 훨씬 뛰어 넘는 것으로 보입니다. ... 특정 값을 "외부"로 선택하는 엄지 손가락 ""후에 그는 이것을 "... 비정상적인 개별 값의 식별"로 요약합니다. [EDA, 2 장]. 그는이 책 전체에서 "프로세스를 이해하는"척하는 것이 아니라 데이터를 설명하고 있으며 유효한 여러 설명이 항상 가능하다고 강조합니다.
whuber

마찬가지로, "이상 값은 대부분의 표본과 관련하여 놀람을 일으키는 표본 값"입니다 (WN Venables 및 BD Ripley. 2002. S. New York의 최신 통계 : Springer, p.119). 그러나 놀람은 보는 사람의 마음에 있으며 데이터의 암묵적이거나 명시적인 모델에 의존합니다. 특이 치가 전혀 놀랍지 않은 다른 모델이있을 수 있습니다. 예를 들어, 데이터가 실제로는 정상이 아니라 로그 정규 또는 감마입니다.
Nick Cox

@Nick 그것은 John의 답변 에 대한 주석에서 인용 한 Barnett 및 Lewis와 일치 합니다.
whuber

@ whuber : 당신은 "Contrast this"라고 말하는데, 나는 당신이 동의하지 않는다고 생각하지만 확실하지 않습니다. 나는 암묵적이고 순진한 모델-형성이 데이터에서 패턴을 보거나 달에있는 사람 또는 특이점을 보는 이유라고 주장한다. 이 모델에는 물리 / 화학 / 경제적 기초가 없을 수 있지만 모델을 가정했습니다. 그렇지 않으면, "외부"가 없다는 것은 놀라운 일이 아닙니다.
Wayne

Tukey는 데이터 를 설명 할 때 반드시 데이터를 모델링 할 필요는 없다고 주장 합니다. 데이터 설명을 포함하도록 "모델"에 대한 정의를 확장하는 것이 공정하지만 용어가 너무 일반적이어서 유용하지 않습니다. Tukey의 관점에서 (물론 해석 할 때), 얼굴이 상실 될 염려 나 편의성에 대한 의문은 없습니다. 따라서, 나는 당신의 동기를 존중하지만, 당신의 태도 ( "얼굴 절약"과 "불편한"에 반영된)는이 질문에 대한 다른 접근 방식보다 덜 건설적이라고 생각합니다.
whuber

0

모든 (2 ^ n -1) 고유 하위 집합에 대해 95 % 신뢰 수준에서 수행 된 RUM 테스트를 100 % 준수하도록 보장하기 위해 크기 n의 데이터 집합에서 제거해야하는 최소 요소 집합의 구성원으로 특이 치를 정의합니다. 데이터. RUM 테스트의 정의는 R (Sept 2010)을 사용하여 PDF에 데이터를 피팅하는 방법에 대한 Karian 및 Dudewicz 텍스트를 참조하십시오.


-2

특이 치는 잦은 영역에서만 중요합니다. 단일 데이터 포인트가 이론에 의해 미리 결정된 기본 분포에 의해 정의 된 모델에 편향을 추가하는 경우 해당 모델에 대한 이상치입니다. 주관성은 이론이 다른 모형을 제시하는 경우 특이점과 다른 점 세트를 가질 수 있다는 사실에 있습니다.


1
베이지안 데이터 분석에서 특이 치가 중요하지 않다고 주장하고 있습니까?
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.