밀도 추정은 어디에 유용합니까?

약간 간결한 수학을 겪은 후에는 커널 밀도 추정에 약간의 직관이 있다고 생각합니다. 그러나 나는 또한 세 가지 이상의 변수에 대한 다변량 밀도를 추정하는 것이 추정기의 통계적 특성 측면에서 좋은 생각이 아닐 수 있음을 알고 있습니다.

그렇다면, 비모수 적 방법을 사용하여 이변 량 밀도를 어떤 종류의 상황에서 추정하고 싶습니까? 두 개 이상의 변수에 대한 추정에 대해 걱정할 가치가 있습니까?

다변량 밀도 추정의 적용과 관련하여 유용한 링크를 가리킬 수 있다면 좋을 것입니다.

— Lovekesh
소스

답변:

밀도 추정을 적용하는 일반적인 사례 중 하나는 특이점 탐지 (일명 이상치 탐지)입니다. 여기서 아이디어는 사용자가 한 가지 유형의 데이터 만 가지고 있지만 매우 드물고 질적 인 별개의 데이터에 관심이 있다는 것입니다. 그 일반적인 경우.

사기 감지, 시스템 장애 감지 등이 그 예입니다. 이들은 관심있는 종류의 데이터를 수집하기가 매우 어렵거나 비용이 많이 드는 상황입니다. 이러한 드문 경우, 즉 발생 가능성이 낮은 경우입니다.

대부분의 경우 정확한 분포를 정확하게 추정하는 데 관심이 없지만 상대 확률 (주어진 표본이 실제 특이 치일 수도 있고 그렇지 않을 수도 있음)에 대해서는 관심이 있습니다.

주제에 대한 수십 개의 튜토리얼과 리뷰가 있습니다. 이 사람은 시작하기에 좋은 하나가 될 수 있습니다.

편집 : 일부 사람들의 경우 이상 값 탐지에 밀도 추정을 사용하는 것이 이상하게 보입니다. 먼저 한 가지에 동의합시다. 누군가 가 자신의 데이터에 혼합 모델 을 적용하면 실제로 밀도 추정을 수행합니다. 혼합 모형은 확률 분포를 나타냅니다.

kNN과 GMM은 실제로 관련이 있습니다. 이러한 확률 밀도를 추정하는 두 가지 방법입니다. 이것은 참신 탐지의 많은 접근 방식에 대한 기본 아이디어입니다. 예를 들어, 이것은 kNN을 기반으로 한 것이고, 다른 하나 는 Parzen 창을 기반으로하며 (이 글의 시작 부분 에서이 아이디어를 강조하는) 다른 많은 것들 입니다.

모든 사람이이 아이디어에 대해 노력하는 것은 나에게는 보이지만 (그러나 그것은 내 개인적인 인식 일뿐입니다). 이상 / 희귀 사건에 대한 아이디어를 어떻게 표현 하시겠습니까?

— jpmuc
소스

요약 한 노트 세트 (섹션 6, "밀도 기반 접근 방식") 는 특이점 탐지에 대한 매우 난해한 (주제에 대한 평균 스트림 및 조용한 개발 된 문헌과는 거리가 있음) 접근 방식을 간략하게 설명 합니다. 더 일반적인 응용 프로그램이 존재해야합니다.

— user603

죄송합니다. 귀하의 의견을 이해하지 못합니다. 두 가지 매우 기본적인 예는 kNN과 GMM입니다. 이 두 방법은 확률 밀도의 추정치를 제공하며 이러한 경우에 사용될 수 있습니다.

— jpmuc

감사. GMM이란 무엇입니까? kNN이 이상치 탐지에 대한 평균 스트림 접근 방식이라고 생각하지 않습니다. 해당 컨텍스트에서 사용되는 강력한 통계에 대한 최근 교과서를 참조 할 수 있습니까? (나는 당신이 특이한 탐지에 관한 것을 지적한 슬라이드 세트의 논문을 회의 절차 나 오래된 책

— 처럼

GMM = 가우스 혼합 모델. 슬라이드에서는 kNN을 기준으로 한 점수를 말합니다. 나는 개인적으로 참신 탐지에 SVM을 사용했습니다. 유감스럽게도 구체적인 교과서를 추천 할 수는 없습니다. 아마도이 노트 ( stats.ox.ac.uk/pub/StatMeth/Robust.pdf )가 충분할 것입니다.

— jpmuc

@ user603에 강력하게 동의합니다. 밀도 추정은 언뜻보기에 특이 치를 찾기위한 매우 이상하고 간접적 인 방법입니다. 실제로 적용되는 방식과 그것이 효과가 있다고 생각하는 이유를 요약하면 답변이 향상됩니다.

— Nick Cox

평균 이동 알고리즘 ( http://en.wikipedia.org/wiki/Mean-shift )이 효율적이고 적합한 kde 적용을위한 좋은 예 라고 생각합니다 . 이 알고리즘의 목적은 해당 밀도 함수에서 샘플링 된 데이터 제공되는 밀도 함수의 최대 값을 찾고 전체 kde 모델링을 기반으로하는 것입니다. 여기서 $(x_i)$

f_{h} (x) \propto \sum_{x_{i}} \exp (- (x_{i} - x)^{T} Σ^{- 1} (x_{i} - x)),

$f_h(x) \propto \sum_{x_i} \exp( -(x_{i}-x)^{T}\Sigma^{-1} (x_{i}-x)),$

Σ^{- 1}

$\Sigma^{-1}$ 공분산 행렬 (대부분 추정 된 시간)입니다. 이 알고리즘은 구성 요소의 수를 알 수없는 경우 클러스터링 작업에 널리 사용됩니다. 각 검색된 모드는 클러스터 중심이며 샘플이 모드에 가까울수록 해당 클러스터에 속할 가능성이 높습니다 (모두의 모양에 따라 적절하게 가중치가 부여됨). 재구성 밀도). 샘플 데이터 는 일반적으로 1보다 큰 치수를 갖는다 : 예를 들어, 2D 컬러 이미지 분할을 수행하기 위해, 샘플은 (RComponent, GComponent, BComponent, xPosition, yPosition)에 대해 5d 일 수있다.

x_{i}

$x_i$

— 푸프
소스

일반적으로 KDE는 히스토그램의 대안으로 선전됩니다. 이러한 맥락에서 히스토그램에 비해 KDE의 주요 장점은 임의로 선택된 매개 변수가 절차의 시각적 출력에 미치는 영향을 완화하는 것입니다. 특히 KDE는 사용자가 시작점과 끝점을 지정할 필요가 없습니다.

— 사용자 603
소스