머신 러닝의 맥락에서 특이 치와 비정상의 차이점은 무엇입니까? 내 이해는 둘 다 같은 것을 참조한다는 것입니다.
머신 러닝의 맥락에서 특이 치와 비정상의 차이점은 무엇입니까? 내 이해는 둘 다 같은 것을 참조한다는 것입니다.
답변:
두 용어는 다음과 같은 동의어입니다.
Aggarwal, Charu C. 이상치 분석. Springer New York, 2017, doi : http://dx.doi.org/10.1007/978-3-319-47578-3_1
1 페이지의 인용문 :
데이터 마이닝 및 통계 문헌에서 특이 치를 불일치, 불일치, 이탈자 또는 이상 이라고도합니다 .
굵은 체 텍스트는 원본 텍스트의 일부가 아닙니다.
저자가 제공 한 책의 무료 PDF 파일은 여기에 있습니다.
혀로 대답 :
특이 치 : 모형에서 제대로 작동하지 않음을 나타내는 데이터에서 예측할 수있는 값
이상 현상 : 데이터에서 발견 된 모든 확률에 대해 모형이 제대로 작동 함을 나타내는 값
더 심각하고 덜 비밀스러운 답변 :
특이 치 개념은 데이터에 대해 가정하는 모델을 작성하는 문제에서 시작됩니다. 특이 치는 종종 모델이 데이터를 올바르게 설명하지 않음을 나타내는 지표이므로 모델 결과 또는 데이터 품질에 의문을 제기해야합니다.
변칙의 개념은 이론 세계와 응용 세계 내에서 시작됩니다. 우리는 데이터에서 비정상적인 행동을 찾고 싶어합니다. 때로는 누군가가 숨기려고하는 행동을 찾는 데 관심이 있다는 사실에 동기를 부여하려고합니다. 이메일). 문제는 사람들이 자신이하는 일을 숨기려고하기 때문에 무엇을 찾아야하는지 실제로 모른다는 것입니다. 따라서 우리는 "좋은"데이터 세트를 취하여 "좋은"것으로 보이지 않는 새 데이터 세트에서 발견 된 모든 것이 이상하고 체크 아웃 할 시간이 가치가 있다고 결정합니다. 종종 이상 현상을 찾는 것은 새 데이터 세트에서 특이 치를 찾는 것을 의미합니다. 그러나이 값은 기존 데이터 세트에서는 드물지만 새 데이터 세트에서 매우 일반적 일 수 있습니다 !
요약하면, 두 개념은 통계 뒤에는 통계가 매우 유사하지만 (즉, 적합 모델에 따라 비정상적인 값) 다른 각도에서 아이디어를 얻습니다. 또한 특이 치에 대해 이야기 할 때 일반적으로 모델에 적합하게 사용 된 데이터에서 특이한 데이터 포인트 를 의미합니다 . 여기서 비정상은 일반적으로 모델에 적합하게 사용 된 데이터 외부의 데이터 세트에서 비정상적인 데이터 포인트 를 의미 합니다 .
참고 :이 답변은 공식적인 정의가 아니라 두 가지 용어가 자주 사용되는 것을 보았습니다. 사용자 경험이 다를 수 있습니다.
이상은 기본 분포 (우리의 가정이 올바른 경우 불가능)를 감안할 때 설명 할 수없는 결과입니다. 특이 치는 기본 분포 (불확실성)를 감안할 때 발생하지 않는 이벤트입니다.
이 용어는 대체로 교환 가능한 방식으로 사용됩니다. "Outlier"는 표준 외부에있는 것을 의미하므로 "비정상적"입니다. 그러나 나는 "outlier"가 일반적으로 매우 드문 관찰에 사용된다는 인상을 받았습니다 . 통계에서 정규 분포에서는 세 시그마를 특이 치로 간주합니다. 즉 개체의 99.7 %가 "정상"일 것으로 예상됩니다. "Anomaly"는 훨씬 더 자유롭게 사용됩니다. 웹 사이트에 갑자기 수백만 명의 방문자가있는 경우 드문 방문자는 아닙니다. 그러나 방문자의 갑작스런 증가는 여전히 "비정상적"이지만 각 개별 방문자는 "이상적"이 아닙니다.
이 기사에서 이러한 차이점에 대해 논의했을 수도 있지만 불행히도 지금은 액세스 할 수 없습니다.
통계 분석 및 데이터 마이닝, 5 권, 5 호, 2012 년 10 월, 페이지 363–387 고차원 수치 데이터에서 감독되지 않은 이상치 탐지에 대한 조사
이상은 하나의 데이터 포인트이거나 모델이 이미 구축 된 후 또는 데이터 생성 프로세스에 대한 이해가 이루어진 후 데이터에서 관찰되는 일반적인 추세 또는 동작 일 수 있습니다. 시스템이 다르게 동작하기 시작하거나 모델이 유효하지 않은 이벤트가 발생할 때 정보를 원하기 때문에 이러한 데이터 포인트를 찾으려고하면 이상에 직면하게됩니다. 이러한 데이터 포인트를 버리고 더 나은 모델을 만들려는 것이 아니라 쓰나미가 언제 발생할지 알고 싶어하기 때문에 파도의 진폭에서 비정상적인 동작을 관찰하는 데 관심이있을 수 있습니다.