이상치 탐지를위한 강력한 PCA 및 강력한 Mahalanobis 거리


17

강력한 PCA ( Candes et al 2009 또는 Netrepalli et al 2014에서 개발 한 )는 다변량 이상치 탐지에 널리 사용되는 방법 이지만 , 공분산 행렬의 강력하고 규칙적인 추정을 통해 Mahalanobis 거리를 이상치 탐지에도 사용할 수 있습니다 . 한 방법을 다른 방법으로 사용하는 것의 장점에 대해 궁금합니다.

내 직감에 따르면 둘 사이의 가장 큰 차이점은 다음과 같습니다. 데이터 집합이 "소형"(통계적 의미에서)이면 강력한 PCA는 낮은 순위의 공분산을 제공하고 강력한 공분산 매트릭스 추정은 전체를 제공합니다. Ledoit-Wolf 정규화로 인한 순위 공분산. 이것이 어떻게 이상치 탐지에 영향을 줍니까?


흥미로운 질문이지만 특정 유스 케이스가 없으면 답변을 얻는 방법을 알 수 없습니다. 수행, 당신은 "심하게 관찰을 손상" ? 일반적으로 시끄러운 데이터가 있습니까? 다수의 RPCA 구현은 본질적으로 강력한 공분산 추정 기법 (Jolliffe 's Princ. Component Analysis, Ed. 2nd Ch. 10 참조)에서 PC는 공분산의 정규화 된 추정치로부터 추정됩니다. 따라서 언급 한 두 가지 접근 방식과의 차이점은 분명하지 않습니다. 일반적으로 자동 이상치 탐지는 특정 응용 프로그램의 맥락에서 성공적입니다.
usεr11852는 Reinstate Monic

1
"잡음 데이터"문제는 이상치 탐지가 아닙니다. 이상치 탐지 문제는 유스 케이스 없이이 두 방법을 전반적으로 비교할 수있을 정도로 자체적으로 제한적이라고 생각합니다. 이것은 방법론에 관한 질문입니다.
Mustafa S Eisa

너무 작은 공간에서 너무 많이 말하려고했을 수도 있습니다. 죄송합니다. 내가 주목하고 싶은 것은 언급 한 두 가지 접근 방식이 다르지 않다는 것입니다. 프로젝션 추구 접근법 (RPA라고하는 것)과 강력한 공분산 추정 접근법 (마할 라 노비스 거리라고하는 것)의 비교에 더 집중하는 것을 고려해야합니다. 강력한 공분산 추정 자체는 RPCA 구현 (예 : Google "PCA M-Estimation")을위한 완벽하게 유효한 방법입니다. RPCA와 관련하여 언급하지 않은 가중 PCA 접근법의 존재에 대해서도 언급하지 마십시오.
usεr11852는 Reinstate Monic이

사과 할 필요가 없습니다. :) 두 가지 방법은 특히 작은 데이터 세트에서 매우 뚜렷합니다. 그들이 다른 방법 중 하나는 내 질문 끝에 언급됩니다. (견고한) PCA는 프로젝션 문제로 볼 수 있지만 공분산 추정 문제로 해석 될 수도 있으므로 응용 프로그램 및 성능에서보다 매개 변수 추정 방법의 차이가 적을 수 있습니다.
Mustafa S Eisa

@ MustafaSEisa / 좋은 질문입니다! 나는 그것이 방법 론적 근거에서 대답 할 수 있다고 생각합니다. 사실 그것은 그것이 내 pete peeves 중 하나입니다. 나는 잠정적 인 대답을 시도 할 것이다. 그 사이에; 좀 더 일반적인 용어로 접근하는 방법은 내포하지만 불균형 그룹이있는 모델을 사용하는 결과를 보는 것입니다. 약간 다른 맥락에서 여기 에서 하려고합니다 .
user603

답변:


7

이 문서 는이 영역의 일부 방법을 비교합니다. 여기에는 "PCP"(주요 구성 요소 추구)로 연결 한 강력한 PCA 접근 방식과 M- 추정기로 강력한 공분산 추정을 위해 연결 한 방법이 포함됩니다.

그들은 그것을 주장

PCP는 손상된 데이터 포인트 (즉, 특이 치) 대신 균일하게 손상된 데이터 좌표를 위해 설계되었으므로 이러한 종류의 데이터에는 PCP와의 비교가 다소 불공평합니다.

PCP (일명 강력한 PCA)가 이상치 탐지에 실패 할 수 있음을 보여줍니다.

그들은 또한 3 가지 종류의 "서브 공간 복구의 적들", 즉 다른 종류의 이상 치들과 어떤 종류의 방법들이 각각을 다루기에 잘 작용하는지에 대해 이야기합니다. 여기에서 논의 된 3 가지 종류의 "에미"와 자신의 특이 치를 비교하면 접근 방식을 선택하는 데 도움이 될 수 있습니다.


이 David에게 감사드립니다. 나는 논문을 살펴볼 것입니다. 그러나 Candes의 경우와 같이 좌표에 대한 페널티 대신 데이텀 (데이터 매트릭스의 행)에 회전 불변의 페널티를 부과하는 강력한 PCA 버전이 있습니다. 생각?
Mustafa S Eisa

귀하의 질문을 이해하지 못했습니다. 귀하의 질문에서 논의한 두 가지 접근 방식을 다른 강력한 PCA 접근 방식과 비교하도록 요청하십니까?
David J. Harris

11

당신의 대답이“아니요”라면 그것은 정말 괜찮습니다.
Mustafa S Eisa

아, 알겠습니다 그것이 Mahalanobis 거리의 특별한 경우일까요?
David J. Harris
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.