답변:
밀도 추정을 적용하는 일반적인 사례 중 하나는 특이점 탐지 (일명 이상치 탐지)입니다. 여기서 아이디어는 사용자가 한 가지 유형의 데이터 만 가지고 있지만 매우 드물고 질적 인 별개의 데이터에 관심이 있다는 것입니다. 그 일반적인 경우.
사기 감지, 시스템 장애 감지 등이 그 예입니다. 이들은 관심있는 종류의 데이터를 수집하기가 매우 어렵거나 비용이 많이 드는 상황입니다. 이러한 드문 경우, 즉 발생 가능성이 낮은 경우입니다.
대부분의 경우 정확한 분포를 정확하게 추정하는 데 관심이 없지만 상대 확률 (주어진 표본이 실제 특이 치일 수도 있고 그렇지 않을 수도 있음)에 대해서는 관심이 있습니다.
주제에 대한 수십 개의 튜토리얼과 리뷰가 있습니다. 이 사람은 시작하기에 좋은 하나가 될 수 있습니다.
편집 : 일부 사람들의 경우 이상 값 탐지에 밀도 추정을 사용하는 것이 이상하게 보입니다. 먼저 한 가지에 동의합시다. 누군가 가 자신의 데이터에 혼합 모델 을 적용하면 실제로 밀도 추정을 수행합니다. 혼합 모형은 확률 분포를 나타냅니다.
kNN과 GMM은 실제로 관련이 있습니다. 이러한 확률 밀도를 추정하는 두 가지 방법입니다. 이것은 참신 탐지의 많은 접근 방식에 대한 기본 아이디어입니다. 예를 들어, 이것은 kNN을 기반으로 한 것이고, 다른 하나 는 Parzen 창을 기반으로하며 (이 글의 시작 부분 에서이 아이디어를 강조하는) 다른 많은 것들 입니다.
모든 사람이이 아이디어에 대해 노력하는 것은 나에게는 보이지만 (그러나 그것은 내 개인적인 인식 일뿐입니다). 이상 / 희귀 사건에 대한 아이디어를 어떻게 표현 하시겠습니까?
평균 이동 알고리즘 ( http://en.wikipedia.org/wiki/Mean-shift )이 효율적이고 적합한 kde 적용을위한 좋은 예 라고 생각합니다 . 이 알고리즘의 목적은 해당 밀도 함수에서 샘플링 된 데이터 제공되는 밀도 함수의 최대 값을 찾고 전체 kde 모델링을 기반으로하는 것입니다. 여기서f h ( x ) ∝ ∑ x i exp ( − ( x i − x ) T Σ − 1 ( x i − x ) ) , Σ − 1 x i