다변량 모드의 계산 효율적인 계산


14

짧은 버전 : 연속 분포에서 샘플링 된 다차원 데이터 세트의 모드를 추정하는 가장 계산 효율적인 방법은 무엇입니까?

긴 버전 : 모드를 추정 해야하는 데이터 세트가 있습니다. 이 모드는 평균 또는 중앙값과 일치하지 않습니다. 샘플은 다음과 같습니다. 2D 예이지만 ND 솔루션이 더 좋습니다. 여기에 이미지 설명을 입력하십시오

현재 내 방법은

  1. 원하는 모드의 해상도와 동일한 그리드에서 커널 밀도 추정값을 계산합니다
  2. 가장 큰 계산 포인트를 찾으십시오

분명히 이것은 많은 비 유연한 지점에서 KDE를 계산합니다. 높은 차원의 데이터 지점이 많거나 모드에서 좋은 해상도를 기대하는 경우 특히 나쁩니다.

대안은 KDE에서 전체 피크를 찾기 위해 시뮬레이션 된 어닐링, 유전자 알고리즘 등을 사용하는 것입니다.

문제는이 계산을 수행하는 더 똑똑한 방법이 있는지 여부입니다.


나는 대답을 모른다. 그러나 이것은 큰 질문이라고 생각한다. 내가 언급 한 것보다 더 나은 접근 방법을 생각하기가 어렵습니다. 다변량에 비해 단 변량 커널 추정 방법에 차이가 있다고 생각합니다. David Scott의이 책은 다변량 커널 접근 방식에 도움이 될 수 있지만 피크 사냥에 대해서는 잘 모르겠습니다. amazon.com/…
Michael R. Chernick

답변:


7

KKf(x)Kf(x)K

블로그 항목 에는 알고리즘에 대한 자세한 설명도 나와 있습니다.


3
좋은 참고 자료 인 Larry Wasserman은 최근이 기술을 자세히 설명하지 않은 The Amazing Mean Shift Algorithm에 대한 짧은 글을 가지고있었습니다 .
Andy W

1
@AndyW 좋은 전화! Larry Wasserman의 게시물 (및 그의 블로그)은 훌륭합니다. 의견을 살펴보면 평균 이동, mediod-shift 및 변형 QuickShift에 대한 이 예시적인 참조 를 찾았 습니다.
Sameer

2
감사. 그 것이 가장 빠른지 말할 수는 없지만 확실히 로컬 최대 값을 찾습니다. 다음은 일부 합성 데이터에 대한 궤적 및 학습 속도의 도표입니다 .
tkw954

9

당신의 주요 관심사가 2 차원 문제라면, 커널 밀도 추정은 좋은 비 점프 적 특성을 가지고 있기 때문에 좋은 선택이라고 말할 것입니다 (최고라고 말하지는 않습니다). 예를 들어보십시오

Parzen, E. (1962). 확률 밀도 함수 및 모드 추정시 . 수학 통계 연보 33 : 1065–1076.

de Valpine, P. (2004). 가중 후방 커널 밀도 추정에 의한 몬테카를로 주 공간 가능성 . 미국 통계 협회의 전표 99 : 523-536.

더 높은 차원 (4+)의 경우,이 방법은 최적 대역폭 매트릭스를 추정하는 데 잘 알려진 어려움으로 인해 실제로 느리다 ( 참조) .

이제 ks패키지 에서 명령의 문제점 KDE은 언급했듯이 특정 그리드의 밀도를 평가하는 데 매우 제한적입니다. KDE예를 들어 대역폭 매트릭스 추정 패키지 를 사용 Hscv하여 커널 밀도 추정기를 구현 한 다음 명령을 사용하여이 기능을 최적화하면 이 문제를 해결할 수 있습니다 optim. 아래의 시뮬레이션 된 데이터와 가우스 커널을 사용하여 아래에 표시됩니다 R.

rm(list=ls())

# Required packages
library(mvtnorm)
library(ks)

# simulated data
set.seed(1)
dat = rmvnorm(1000,c(0,0),diag(2))

# Bandwidth matrix
H.scv=Hlscv(dat)

# [Implementation of the KDE](http://en.wikipedia.org/wiki/Kernel_density_estimation)
H.eig = eigen(H.scv)
H.sqrt = H.eig$vectors %*% diag(sqrt(H.eig$values)) %*% solve(H.eig$vectors)
H = solve(H.sqrt)
dH = det(H.scv)

Gkde = function(par){
return( -log(mean(dmvnorm(t(H%*%t(par-dat)),rep(0,2),diag(2),log=FALSE)/sqrt(dH))))
}

# Optimisation
Max = optim(c(0,0),Gkde)$par
Max

예를 들어, 모양이 제한된 추정기는 더 빠른 경향이 있습니다.

Cule, ML, Samworth, RJ 및 Stewart, MI (2010). 다차원 로그 ​​오목 밀도의 최대 가능성 추정 . 왕립 통계 학회지 B 72 : 545–600.

그러나이 목적으로 는 너무 정점 했습니다.

4

다변량 유한 법선의 혼합 (또는 다른 유연한 분포) 피팅 또는

Abraham, C., Biau, G. 및 Cadre, B. (2003). 다변량 밀도 모드의 간단한 추정 . 캐나다 통계 저널 31 : 23-34.

이게 도움이 되길 바란다.


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.