가우스 혼합에서 최적의 성분 수


10

따라서 k- 평균으로 최적의 군집 수의 "아이디어"를 얻는 것이 잘 문서화되어 있습니다. 가우시안 혼합물 에서이 작업에 대한 기사 를 찾았 지만 확실하지는 않지만 잘 이해하지 못합니다. 이 작업을 수행하는 더 부드러운 방법이 있습니까?


4
기사를 인용하거나 적어도 제안하는 방법론을 설명해 주시겠습니까? 우리가 기준을 모른다면 이것을하는 "보다 부드러운"방법을 생각해 내기가 어렵습니다 :)
jbowman

1
Geoff McLachlan 등은 혼합 분포에 관한 책을 저술했습니다. 여기에는 혼합물의 성분 수를 결정하는 접근법이 포함되어 있다고 확신합니다. 아마 거기에서 볼 수 있습니다. 나는 당신이 혼란스러워하는 것이 무엇인지 우리에게 알려 주면 혼란을 덜어주는 것이 jbowman에 동의합니다.
Michael R. Chernick

스피커 식별을위한 증분 k- 평균을 기반으로 한 가우시안 혼합물의 최적 최적 추정치. 제목입니다. 무료로 다운로드 할 수 있습니다. 기본적으로 두 클러스터가 서로 종속되는 것을 볼 때까지 클러스터 수를 1 씩 증가시킵니다. 감사합니다!
JEquihua

가능성의 교차 검증 추정을 최대화하는 성분의 수를 선택하지 않는 이유는 무엇입니까? 계산 비용이 많이 들지만 튜닝 할 매개 변수가 많지 않으면 모델 선택시 대부분의 경우 교차 검증이 이길 수 없습니다.
Dikran Marsupial

가능성에 대한 교차 검증 추정치가 얼마인지 설명 할 수 있습니까? 나는 그 개념을 모른다. 감사합니다.
JEquihua

답변:


5

Dikran Marsupial의 의견에 대한 확장 (교차 유효성 검사). 주요 아이디어는 어떤 방식 으로든 데이터를 교육 및 유효성 검사 세트로 분할하고 다른 수의 구성 요소를 시도하고 해당하는 교육 및 유효성 확인 가능성 값을 기반으로 가장 적합한 것을 선택하는 것입니다.

GMM의 가능성은 단지 p(x|π,μ,Σ)=KπkN(x|μk,Σk) 정의에 따라 K 구성 요소 (클러스터) 수 π,μ,Σ모델 매개 변수입니다. 의 값을 변경하여K 다음과 같이 교육 및 검증 세트에 대한 GMM 가능성을 플롯 할 수 있습니다.

여기에 이미지 설명을 입력하십시오

이 예에서 최적의 구성 요소 수는 약 20입니다. Coursera에 대한 좋은 비디오 가 있으며 위의 그림을 얻은 곳입니다.


일반적으로 사용되는 또 다른 방법은 베이지안 정보 기준 (BIC)입니다 .

나는=2로그()+케이로그()
어디 가능성, K는 모수의 개수이고 데이터 포인트 수 로그 가능성에 매개 변수 수에 대한 패널티를 추가하는 것으로 이해 될 수 있습니다.
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.