특이 치와 특이 치의 차이

나는 LOF 측정 (Local Outlier Factor)에서 inlier 라는 용어를 우연히 발견했으며, 이상치 용어 (잘 기본적으로 liers-나머지 인스턴스로 작동하지 않는 인스턴스)에 익숙합니다.

이상 감지의 맥락에서 '이너'는 무엇을 의미합니까? 그리고 어떻게 특이 치와 관련이 있습니까?

residuals outliers anomaly-detection

— Anton.P
소스

ec.europa.eu/eurostat/statistics-explained/index.php/… 및 stats.oecd.org/glossary/detail.asp?ID=3464

— Mark L. Stone

이것은 일부 통계 토론을 혼란스럽게 만드는 불행한 영향을 미치는 용어에 약간의 불일치가있는 영역입니다. " 이너 의 개념"는 일반적으로 오류가있는 (즉, 측정 오류의 대상이되는) 데이터 값을 나타 내기 위해 사용되지만 그럼에도 불구하고 정확하게 측정 된 값의 분포의"내부 "에 있습니다.이 정의에 의해 인라이너에는 두 가지 측면이 있습니다. ) 값의 관련 분포 내부에 있고 (2) 잘못된 값이며, 이에 상응하는 "이상 값"이라는 개념은 일반적으로 해당 값의 꼬리에 먼 데이터 값을 나타내는 데 사용됩니다. 이 용어는 "내부자"가 잘못된 데이터 포인트 (정의상)이지만 "외부 자"가 반드시 잘못된 데이터 포인트가 아닌 불행한 불일치를 초래합니다. 이 용어 하에서 "정점"과 "정점"의 결합모든 데이터 또는 모든 잘못된 데이터에 해당하지 않습니다.

특이점 다루기 : 여기 와 여기에 있는 다른 질문 에서 특이점을 다루는 것에 대해 논의 했지만 편의상 여기에서 그 언급 중 일부를 반복하겠습니다. 특이 치는 분포에서 다른 많은 점과 멀리 떨어져있는 점이며, "정점"의 진단은 데이터 점을 추정 된 분포 형태와 비교하여 수행됩니다. 특이 치가 때때로 측정 오차로 인해 발생할 수 있지만, 데이터가 높은 첨도 분포 (즉, 뚱뚱한 꼬리)를 따르는 분포를 따르는 경우에도 특이 치 진단이 발생할 수 있지만 분석가는 데이터 점을 낮은 첨도가있는 추정 분포 형태와 비교합니다 (예 : 정규 분포).

특이 치 테스트에서 "이상 값"으로 플래그를 지정하면 실제로 사용중인 모형 분포에 관측 된 데이터를 정확하게 나타낼 수있는 충분한 꼬리가 없습니다. 일부 데이터에 측정 오류가 있거나 뚱뚱한 꼬리가있는 분포 일 수 있기 때문일 수 있습니다. 가정 된 모형 형태와의 편차가 측정 오차의 증거 (분포 가정의 이론적 근거가 필요함)를 구성한다고 생각할만한 이유가 없다면, 특이 치가 존재한다는 것은 일반적으로 모형이 더 많이 분포 된 분포를 사용하도록 모델을 변경해야 함을 의미합니다 꼬리. 근본적인 분포의 일부인 측정 오차와 높은 첨도를 구별하는 것은 본질적으로 어렵다.

(정말 일반적으로 포함 라이어를 취급 하지 그들과 함께 처리) : 당신은 측정 오차를 나타내는 외부 정보의 소스가 없다면, "라이어"를 식별하기 위해 근본적으로 불가능하다. 정의에 따르면, 이들은 대부분의 다른 데이터가 발생하는 분포의 "내부"에있는 데이터 포인트입니다. 따라서 다른 데이터 포인트에서 "중단"인 데이터를 찾는 테스트에서는 감지되지 않습니다. (경우에 따라 분포 내부에있는 것처럼 보이지만보다 복잡한 분포 표현과 관련하여 실제로는 "이상치"인 "정점"을 감지 할 수 있습니다.이 경우 점은 실제로 특이 치입니다.

드문 경우이지만 측정 오류가있는 데이터의 하위 집합을 식별하는 외부 정보 소스가있을 수 있습니다 (예 : 대규모 설문 조사를 수행하고 측량 자 중 하나가 데이터를 구성하고 있음을 발견 한 경우) ). 이 경우 분포 내부에있는 해당 하위 집합의 모든 데이터 포인트는 "이너"이며 외부 정보를 통해 측정 오류가 발생하는 것으로 알려져 있습니다. 이 경우 일부 데이터는 예상 한 분포 내부에있는 "이너"인 경우에도 일반적으로 잘못된 것으로 알려진 모든 데이터를 제거합니다. 여기서 중요한 점은 분포의 꼬리에 있지 않더라도 데이터 점이 잘못 될 수 있다는 것입니다.

— 벤-복원 모니카
소스