맥 러스트 모델 선택


11

R 패키지 mclust는 BIC를 클러스터 모델 선택의 기준으로 사용합니다. 내 이해에서 BIC가 가장 낮은 모델을 다른 모델보다 선택해야합니다 (BIC에만 관심이있는 경우). 그러나 BIC 값이 모두 음수 인 경우 Mclust함수는 기본적으로 BIC 값이 가장 높은 모델로 설정됩니다. 다양한 시험에서 얻은 전반적인 이해는 mclust"최고의"모델을 모델로 식별 한다는 것 입니다.max{BICi}

저자가 왜이 결정을했는지 이해하려고합니다. CRAN 사이트에 설명되어 있습니다 : https://cran.r-project.org/web/packages/mclust/vignettes/mclust.html

또한 mclust패키지 작성자는 5 페이지 의 논문 모델 기반 분류 방법 : 화학량 측정에 mclust 소프트웨어 사용에이 내용 을 기록합니다.

'최상의'모델은 장착 된 모델 중에서 가장 높은 BIC를 가진 모델로 간주됩니다.

누구든지이 문제를 밝힐 수 있습니까? 낮은 BIC가 항상 더 좋은 경우, 작성자가 BIC가 가장 낮은 모델을 선택하지 않고 절대 BIC가 가장 작은 모델을 선택하는 이유는 무엇입니까? 가능하면 참조를 제공하십시오.

답변:


10

해결책을 찾았습니다 :

따라서 질문을 다시 설명하기 위해 왜 Mclust함수가 "최고의"모델로 가장 높은 BIC 값을 가진 모델로 기본 설정됩니까?

좋은 질문입니다! 이것에 대해 오랫동안 대답 해 드리겠습니다.

TL; DR : BIC 값은 통합 된 (최대가 아님) 가능성에 대한 근사치이며 통합 가능성이 가장 높은 모형 (Bayes factor)을 원하므로 BIC가 가장 큰 모형을 선택하십시오.

긴 대답 : k- 평균 및 계층 적 (집단적) 클러스터링과 같은 휴리스틱 기반 클러스터링 방식보다 모델 기반 클러스터링을 사용하는 목적은 데이터에 적합한 클러스터 모델을 비교하고 선택하는 데보다 공식적이고 직관적 인 접근 방식을 제공하는 것입니다.

Mclust는 확률 모델, 가우스 혼합 모델을 기반으로 한 클러스터링 기술을 사용합니다. 확률 모델을 사용하면 모델 기반 접근법을 개발하여 다른 군집 모델과 크기를 비교할 수 있습니다. 자세한 내용은 * 모델 기반 분류 방법 : Chemometrics에서 mclust 소프트웨어 사용 * ( https://www.jstatsoft.org/article/view/v018i06 )을 참조하십시오.

위에서 언급했듯이 저자들은 "최고의"모델이 가장 큰 BIC 값을 가진 모델이라고 말합니다. 다음은 Enhanced Model-Based Clustering, Density Estimation 및 Discriminant Analysis Software의 또 다른 예입니다 . MCLUST ( https://www.stat.washington.edu/raftery/Research/PDF/fraley2003.pdf ) :

Baysian Information Criterion 또는 BIC (?)는 모형의 매개 변수 수에 대한 패널티로 최대화 된 로그 우도의 값이며, 다른 매개 변수화 및 / 또는 다른 클러스터 수로 모델을 비교할 수 있습니다. 일반적으로 BIC의 가치가 클수록 모델 및 군집 수에 대한 증거는 강해집니다 (예 : Fraley and Raftery 2002a 참조).

모델 선택 : 이제 클러스터에 확률 모델이 첨부되었으므로 더 정교한 도구를 사용하여 Bayes 요인을 통해 베이지안 모델 선택을 사용하여 여러 클러스터 모델을 비교할 수 있습니다.

그들의 논문에서 얼마나 많은 클러스터? 어떤 클러스터링 방법? 모델 기반 클러스터 분석을 통한 답변 ( http://www.stat.washington.edu/raftery/Research/PDF/fraley1998.pdf )

베이 즈 계수는 어느 모델도 선험적으로 선호되지 않는다고 가정 할 때 다른 모델에 대한 사후 확률입니다. Banfield and Raftery [2]는 분류 가능성에 따라 계층 적 군집화의 군집 수를 결정하기 위해 'AWE'라고하는 로그 베이 즈 계수의 두 배에 대해 인공적으로 도출 된 근사법을 사용했습니다. EM을 사용하여 최대 혼합 가능성을 찾는 경우 BIC (Schwarz [32])라고하는 로그 베이 즈 계수의 두 배에 대한보다 신뢰할 수있는 근사치가 적용됩니다.

2log(p(x|M))+constant2lM(x,θ^)mmlog(n)BIC

여기서 은 모델 M에 대한 데이터의 (통합) 우도이고, 는 모델에 대한 혼합 된 혼합 로그 우도이고 m_M은 독립 모수의 수입니다. 모형에서 추정됩니다. 클러스터 수는 BIC 계산을위한 독립 매개 변수로 간주되지 않습니다. 각 모형이 똑같이 Priori 이면 은 데이터가 모형 따르는 사후 확률에 비례합니다 . 따라서, BIC의 가치가 클수록 모형에 대한 증거는 더 강해진다.p(x|M)lM(x,θ^)a priorip(x|M)M

따라서 요약하면 BIC를 최소화해서는 안됩니다. 이 모델 기반 클러스터링 접근 방식을 사용하는 사람은 최대 통합 가능성으로 베이 즈 계수와 근사하므로 BIC를 최대화하는 모델을 찾아야합니다.

그 마지막 진술은 또한 참조를 가지고 있습니다 :

Banfield, JD and Raftery, AE (1993) 모델 기반 가우시안 및 비 가우시안 클러스터링. 생체 인식, 49, 803-821.

편집 : 이메일 교환을 기반으로

참고로, 항상 BIC가 어떻게 정의되어 있는지 확인하십시오. 때때로, 예를 들어 대부분의 회귀 상황에서 (전통적으로 통계량은 모수 추정, 예를 들어 잔차 제곱, 편차 등의 경우 통계가 최소화되는 경우) BIC는 -2 * loglik + npar * log (n)으로 계산됩니다. mclust에서 사용되는 것. 이 경우 BIC를 최소화해야합니다.

BIC의 일반적인 정의는 . mclust는 음수 성분을 포함하지 않습니다.BIC=2×ln(L(θ|x))+k×ln(n)


1
이 응답의 이메일 서신과 어떤 Mclust 버전이 있는지 잘 모르겠습니다. Mclust 버전 4는 BIC의 부정적인 구성 요소를 사용하므로 최대화해야합니다. 최대화 또는 최소화를 수행해야하는지 파악하려는 사람들에게 유용 할 수 있기를 바랍니다.
Rasika

지적 해 주셔서 감사합니다.이 질문을 이해하기 쉽게 업데이트하겠습니다. 나는 그들이 왜 그렇게 오랜 세월이 지난 후에이 변경을하기로 결정했는지를보기 위해 문서를 볼 수도 있습니다.
Jon
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.