데이터에 단일 특이 치가 포함되어 있으면 반복하지 않고 제안한 방법을 사용하여 안정적으로 찾을 수 있습니다. 이에 대한 공식적인 접근 방식은
쿡, 데니스 (1979). 선형 회귀 분석의 영향력있는 관찰 . 미국 통계 협회 저널 (American Statistical Association) 74 (365) : 169–174.
수년 동안 하나 이상의 이상 값을 찾는 데있어 주요한 방법은 소위 추정법 접근 방식이었습니다. 이것은 Huber의 회귀 추정량, Koenker의 L1 회귀 분석 및 Procastinator가 귀하의 질문에 대한 제안으로 제안한 접근 방식 을 포함하는 다소 광범위한 추정기입니다 . 볼록 추정기와 기능 들은 일반 회귀 추정과 동일한 수치가 복잡도에 대해 이점을 갖는다. 가장 큰 단점은 다음과 같은 경우에만 특이 치를 찾을 수 있다는 것입니다.MMMρ
- 샘플의 오염 률이 보다 작습니다. 여기서 는 설계 변수의 수입니다.11+pp
- 또는 특이 치가 설계 공간에 포함되지 않은 경우 (Ellis and Morgenthaler (1992)).
( ) 패키지 에서 회귀 추정치 ( )을 구현 한 것을 찾을 수 있습니다 . Ml1robustbase
quantreg
R
데이터가 더 포함되어있는 경우 설계 공간에 잠재적으로 외곽 이상치, 다음, 그들은 조합 문제 (AN에 동등하게 솔루션을 해결하는 금액 찾는 재와 견적 감소 / 비 볼록 기능). ⌊np+1⌋Mρ
지난 20 년 동안 (특히 10 년 동안)이 조합 문제를 대략적으로 해결하기 위해 빠르고 신뢰할 수있는 이상치 탐지 알고리즘이 많이 설계되었습니다. 이들은 현재 가장 널리 사용되는 통계 패키지 (R, Matlab, SAS, STATA 등)에서 널리 구현됩니다.
그럼에도 불구하고, 이러한 접근법으로 특이 치를 찾는 수의 복잡성은 일반적으로 차수 입니다. 대부분의 알고리즘은 실제로 10 대 중반 의 값에 사용될 수 있습니다 . 일반적으로 이러한 알고리즘은 (관측 수) 에서 선형 이므로 관측 수는 문제가되지 않습니다. 큰 장점은 이러한 알고리즘의 대부분이 창피하게 병렬이라는 것입니다. 보다 최근에는,보다 높은 차원의 데이터를 위해 특별히 설계된 많은 접근법이 제안되었다.O(2p)pn
귀하의 질문에 를 지정하지 않았다면 사례에 대한 참조를 나열 할 것 입니다. 다음은이 일련의 검토 기사에서이를 자세히 설명하는 논문입니다.pp<20
Rousseeuw, PJ 및 van Zomeren BC (1990). 다변량 특이 치 및 레버리지 점 마스킹 해제 . 미국 통계 협회 , Vol. 85, No. 411, 633-639 쪽.
Rousseeuw, PJ 및 Van Driessen, K. (2006). 대규모 데이터 세트에 대한 LTS 회귀 계산 . 데이터 마이닝 및 지식 검색 아카이브 제 12 권 1 호, 29-45 페이지.
휴 버트, M., Rousseeuw, PJ 및 Van Aelst, S. (2008). 고장력이 강한 다변량 방법 . 통계 과학 , Vol. 23, No. 1, 92–119
Ellis SP 및 Morgenthaler S. (1992). L1 회귀 분석의 활용 및 분석. 미국 통계 협회 , Vol. 87, No. 417, 143-148 쪽
특이점 식별 문제에 대한 최근 참조서는 다음과 같습니다.
Maronna RA, Martin RD 및 Yohai VJ (2006). 강력한 통계 : 이론 및 방법 . 와일리, 뉴욕
이러한 (및 이들의 많은 다른 변형) 메소드는 패키지 에서 (다른 것들 중에서) 구현 됩니다.robustbase
R