예외와 특이 치의 차이점


13

머신 러닝의 맥락에서 특이 치와 비정상의 차이점은 무엇입니까? 내 이해는 둘 다 같은 것을 참조한다는 것입니다.


3
호기심에서, 문헌에서 그러한 구별은 어디에서 이루어 집니까? 나는 "이상치들"이 높은 지렛대와 영향력있는 관찰 이외의 공식적인 정의를 가지고 있지 않다는 인상을 받았다. 영향 및 활용은 어떻게 수학적 정의를 가지고 있지만, 뭔가 "고"를 고려하는 것은 임의입니다. 임의의 단어가 바뀌는 것처럼 보입니다.
AdamO

"inlier"라는 단어를 사용하는 사람들은 inlier가 일종의 예외이기 때문에 "anomaly"와 "outlier"를 암시 적으로 구분합니다. "outlier"나 "anomaly"는 명확하고 일반적으로 이해되는 기술적 정의를 갖지 않기 때문에이 질문에는 서로 (적어도 약간) 다른 여러 답변이있을 것으로 예상해야합니다.
whuber

답변:


9

두 용어는 다음과 같은 동의어입니다.

Aggarwal, Charu C. 이상치 분석. Springer New York, 2017, doi : http://dx.doi.org/10.1007/978-3-319-47578-3_1

1 페이지의 인용문 :

데이터 마이닝 및 통계 문헌에서 특이 치를 불일치, 불일치, 이탈자 또는 이상 이라고도합니다 .

굵은 체 텍스트는 원본 텍스트의 일부가 아닙니다.

저자가 제공 한 책의 무료 PDF 파일은 여기에 있습니다.


"outliers"가 "anomalies" 로 불린다 는 것이 동의어라는 의미 는 아닙니다 . "개"는 때때로 그 문제에 대해 "동물"이라고합니다. 이 답변 에서이 문제를 더 자세히 해결하려고했습니다 (질문이 보호되어 있기 때문에 여기에 게시 할 수 없었습니다).
Marco13

9

혀로 대답 :

특이 치 : 모형에서 제대로 작동하지 않음을 나타내는 데이터에서 예측할 수있는 값

이상 현상 : 데이터에서 발견 된 모든 확률에 대해 모형이 제대로 작동 함을 나타내는 값

더 심각하고 덜 비밀스러운 답변 :

특이 치 개념은 데이터에 대해 가정하는 모델을 작성하는 문제에서 시작됩니다. 특이 치는 종종 모델이 데이터를 올바르게 설명하지 않음을 나타내는 지표이므로 모델 결과 또는 데이터 품질에 의문을 제기해야합니다.

변칙의 개념은 이론 세계와 응용 세계 내에서 시작됩니다. 우리는 데이터에서 비정상적인 행동을 찾고 싶어합니다. 때로는 누군가가 숨기려고하는 행동을 찾는 데 관심이 있다는 사실에 동기를 부여하려고합니다. 이메일). 문제는 사람들이 자신이하는 일을 숨기려고하기 때문에 무엇을 찾아야하는지 실제로 모른다는 것입니다. 따라서 우리는 "좋은"데이터 세트를 취하여 "좋은"것으로 보이지 않는 새 데이터 세트에서 발견 된 모든 것이 이상하고 체크 아웃 할 시간이 가치가 있다고 결정합니다. 종종 이상 현상을 찾는 것은 새 데이터 세트에서 특이 치를 찾는 것을 의미합니다. 그러나이 값은 기존 데이터 세트에서는 드물지만 새 데이터 세트에서 매우 일반적 일 수 있습니다 !

요약하면, 두 개념은 통계 뒤에는 통계가 매우 유사하지만 (즉, 적합 모델에 따라 비정상적인 값) 다른 각도에서 아이디어를 얻습니다. 또한 특이 치에 대해 이야기 할 때 일반적으로 모델에 적합하게 사용 된 데이터에서 특이한 데이터 포인트 의미합니다 . 여기서 비정상은 일반적으로 모델에 적합하게 사용 된 데이터 외부의 데이터 세트에서 비정상적인 데이터 포인트 의미 합니다 .

참고 :이 답변은 공식적인 정의가 아니라 두 가지 용어가 자주 사용되는 것을 보았습니다. 사용자 경험이 다를 수 있습니다.


6

이상은 기본 분포 (우리의 가정이 올바른 경우 불가능)를 감안할 때 설명 할 수없는 결과입니다. 특이 치는 기본 분포 (불확실성)를 감안할 때 발생하지 않는 이벤트입니다.


7
정의와 예제를 인용하면 답변이 크게 향상됩니다.

4
내가 아는 한 동의어입니다. 그래서 @H. Iqbal은 실제로 출처를 인용해야하며 모든 독자는 해당 출처의 권위를 평가해야합니다
Jacques Wainer

2
불가능은 P (X = ANOMALY) = 0 (즉, 정확히 0)을 암시하는 것으로 보입니다. 이상 탐지에 대한 나의 이해는 연구원이 긍정적 확률을 가질 수있는 사건에 관심이있을 수 있다는 것입니다.
Cliff AB

4

이 용어는 대체로 교환 가능한 방식으로 사용됩니다. "Outlier"는 표준 외부에있는 것을 의미하므로 "비정상적"입니다. 그러나 나는 "outlier"가 일반적으로 매우 드문 관찰에 사용된다는 인상을 받았습니다 . 통계에서 정규 분포에서는 세 시그마를 특이 치로 간주합니다. 즉 개체의 99.7 %가 "정상"일 것으로 예상됩니다. "Anomaly"는 훨씬 더 자유롭게 사용됩니다. 웹 사이트에 갑자기 수백만 명의 방문자가있는 경우 드문 방문자는 아닙니다. 그러나 방문자의 갑작스런 증가는 여전히 "비정상적"이지만 각 개별 방문자는 "이상적"이 아닙니다.

이 기사에서 이러한 차이점에 대해 논의했을 수도 있지만 불행히도 지금은 액세스 할 수 없습니다.

통계 분석 및 데이터 마이닝, 5 권, 5 호, 2012 년 10 월, 페이지 363–387 고차원 수치 데이터에서 감독되지 않은 이상치 탐지에 대한 조사


1
나는 당신이 특이 치와 이상의 차이점을 미묘하게 암시했다고 생각합니다. 이상 값은 일반적인 추세에 맞지 않는 데이터를 설명하는 데 사용되며 이상은 서버의 비정상적인 트래픽을 설명합니다. jk 50 %
Cliff AB

2

그냥 기후학에 더 물을 진흙하는 이상 단지 값과 평균 또는 편차의 차이를 의미한다 :

온도 이상 이라는 용어 는 참조 값 또는 장기 평균에서 벗어난 것을 의미합니다. 양수 이상은 관측 된 온도가 기준값보다 따뜻했음을 나타내고, 음수 이상은 관측 된 온도가 기준값보다 차갑다는 것을 나타냅니다.

예를 들어

그것은 외부 기계 학습으로 간주 될 수 있지만 질문에 관심이있는 사람들은 이것에 관심이있을 수 있습니다.


1

(1,5)y=x(1,1)(5,5)(3,3.1)y=x

이상은 하나의 데이터 포인트이거나 모델이 이미 구축 된 후 또는 데이터 생성 프로세스에 대한 이해가 이루어진 후 데이터에서 관찰되는 일반적인 추세 또는 동작 일 수 있습니다. 시스템이 다르게 동작하기 시작하거나 모델이 유효하지 않은 이벤트가 발생할 때 정보를 원하기 때문에 이러한 데이터 포인트를 찾으려고하면 이상에 직면하게됩니다. 이러한 데이터 포인트를 버리고 더 나은 모델을 만들려는 것이 아니라 쓰나미가 언제 발생할지 알고 싶어하기 때문에 파도의 진폭에서 비정상적인 동작을 관찰하는 데 관심이있을 수 있습니다.


2
나는 이것의 대부분에 동의하지 않습니다. 첫째, 첫 번째 문장은 원하는 경우 이상치의 정의가 될 수 있지만 다른 많은 정의 또는 사용법과 조정하기는 어렵습니다. 데이터가 (1, 1), (2, 2), (3, 3), (훨씬 더 크면 훨씬 더 크면) 훨씬 큰 점은 종종 특이 치로 설명되지만 모델에 적합하지는 않습니다. 왜 데이터가 그런 식으로 오는지 궁금 할 수도 있지만 모델을 맞추는 것은 쉽습니다. 더 일반적으로, 원칙은 특이 치가 데이터의 본체에서 분리 될 수 있지만 여전히 그럴듯한 모델과 일치한다는 것입니다.
Nick Cox

둘째, 특이 치를 생략한다는 의미가 당신이해야 할 일이라면, (a) 특이 치가 무엇인지 말하는 것조차 종종 문제가됩니다. (b) 다른 해결책이 많이 있습니다. 스레드 stats.stackexchange.com/questions/78063/… 은 제목보다 더 광범위하여 여러 가지를 언급합니다.
Nick Cox

1
내 링크를 따라 가면 이미 이상 값에 일정 길이 게시되어 있음을 알 수 있습니다. 피팅하는 동안 특이 치를 제거하는 것에 대해 이야기하는 것처럼 회고 적으로 생각하고 있다는 대답을 다시 읽는 것은 의미가 없습니다. 다시 읽을 때, 두 번째 단락의 첫 번째 문장에는 이상이 '일반적인 경향이나 행동'일 수 있다는 생각이 포함되어 있으며, 이는 귀하가 의미하는 바가 아니거나 그렇지 않은 경우입니다. 그것을 이해하지 마십시오.
Nick Cox

1

좋은 질문. 그러나 "이상치와 이상 사이트 site : .edu의 차이점"에 대한 Google 검색에 따르면이 두 용어간에 이론적 인 차이가 없습니다. 그들은 문헌에서 상호 교환 적으로 사용되고 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.