R에 강력한 다변량 가우스 적합


11

레버리지가 높은 상당히 많은 수의 특이 치가 포함 된 7 차원 점 구름에 일반화 된 가우시안 분포를 맞출 필요가 있습니다. 이 작업에 적합한 R 패키지가 있습니까?


3
stats.stackexchange.com/questions/213/… 의 비슷한 질문에 대한 다변량 특이 치를 식별하기위한 최소한 4 개의 R 패키지에 대한 링크를 찾을 수 있습니다 . 좋은 출발이 될 것입니다.
whuber

어쩌면 문제가 나를 피할 수는 있지만 다변량 가우스 분포에 적합하다면 경험적 평균과 SD를 MLE로 사용하지 않는 이유는 무엇입니까? 그런 다음 영향력 / 높이가 높은 경우 진단 통계에 집중할 수 있습니다.
AdamO

문제는 Huberized loss 함수와 같은 것을 사용하여 매개 변수를 추정하는 것입니다. 나는 전문가가 아니지만 평균에 맞추기 위해 Huber loss를 사용하는 것이 시작일 것입니다.
Tom Dietterich

답변:


1

mclust도 있습니다 : http://www.stat.washington.edu/research/reports/2012/tr597.pdf http://cran.r-project.org/web/packages/mclust/index.html

그러나 한 가지주의 사항 : 고차원 공간에서의 혼합 모델링은 포인트 클라우드가 클 경우 CPU와 메모리를 많이 사용할 수 있습니다. 약 4 년 전에 저는 11 차원, 50-200K 포인트 데이터를 일괄 처리하고 있었으며 4-11GB의 RAM을 사용하는 경향이 있었고 각 사례에 대해 계산하는 데 최대 일주일이 걸렸습니다 (400 명). 이것은 가능하지만 공유 컴퓨팅 클러스터를 사용하거나 사용 가능한 리소스가 부족한 경우 골치 아픈 일이 될 수 있습니다.


1

이것은 고전적인 다변량 가우스 혼합 모델처럼 들립니다. BayesM 패키지가 작동한다고 생각합니다.

다음은 다변량 가우스 혼합 패키지입니다.

  • bayesm : cran.r-project.org/web/packages/bayesm/index.html
  • mixtools : www.jstatsoft.org/v32/i06/paper
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.