클러스터링을위한 Dirichlet 프로세스 : 레이블을 처리하는 방법?


14

Q : Dirichlet Process를 사용하여 데이터를 클러스터링하는 표준 방법은 무엇입니까?

Gibbs 샘플링을 사용하면 샘플링 중에 클러스터가 나타나고 사라집니다. 게다가 사후 분포가 군집 재 표식에 변동이 없기 때문에 식별 가능성 문제가 있습니다. 따라서 우리는 어느 사용자의 클러스터인지를 말할 수 없지만 두 명의 사용자가 동일한 클러스터에 있다고 말할 수 있습니다 (즉, ).p(ci=cj)

가 점 i 의 클러스터 할당 인 경우 이제 c i = c j 뿐만 아니라 c i = c j = c j = 가 되도록 클래스 할당을 요약 할 수 있습니다. . . = c z ?ciici=cjci=cj=cj=...=cz

이것들은 내가 찾은 대안이며 왜 그들이 불완전하거나 잘못 인도되었다고 생각합니다.

(1) DP-GMM + 깁스 샘플링 + 쌍 기반 혼동 매트릭스

클러스터링에 DP-GMM (Dirichlet Process Gaussian Mixture Model)을 사용하기 위해 저자가 Gibbs 샘플링을 사용한 밀도 추정 을 위한 DP-GMM을 제안하는 이 백서를 구현 했습니다 .

클러스터링 성능을 탐색하기 위해 다음과 같이 말합니다.

[MCMC] 체인에서 구성 요소의 수가 변경되므로 전체 체인에 대해 동일한 구성 요소에 할당 된 각 데이터 쌍의 빈도를 나타내는 혼동 행렬을 형성해야합니다 (그림 6 참조). 여기에 이미지 설명을 입력하십시오

단점 : 이것은 실제 "완전한"클러스터링이 아니라 한 쌍의 클러스터링입니다. 실제 클러스터를 알고 그에 따라 행렬을 정렬하기 때문에 그림이 멋지게 보입니다.

(2) DP-GMM + Gibbs 샘플링 + 아무것도 변하지 않을 때까지 샘플

검색 중이었고 Gibbs 샘플러를 사용하여 Dirichlet Process 기반 클러스터링을 주장하는 사람들이 있음을 발견했습니다. 예를 들어, 이 포스트 는 군집 수나 평균에 더 이상 변화가 없을 때 체인이 수렴하여 요약을 얻습니다.

단점 : 틀린 것이 아니라면 이것이 허용되는지 확실하지 않습니다.

  • (a) MCMC 중에 라벨이 전환 될 수 있습니다.

  • (b) 고정 분포에서도 샘플러는 때때로 일부 클러스터를 생성 할 수 있습니다.

(3) DP-GMM + Gibbs 샘플링 + 파티션이 가장 많은 샘플 선택

백서 에서 저자는 다음과 같이 말합니다.

"번인 (burn-in)"기간 ​​후, IGMM의 후방 분포로부터의 편견이없는 샘플은 Gibbs 샘플러로부터 추출 될 수 있습니다. 이러한 많은 샘플을 그리고 클래스 인디케이터 변수의 결합 가능성이 가장 높은 샘플을 사용하여 하드 클러스터링을 찾을 수 있습니다. 우리는 M. Mandel이 작성한 수정 된 IGMM 구현을 사용합니다 .

단점 : 할당 된 샘플 만 샘플링하는 축소 된 깁스 샘플러가 아닌 한 는 계산할 수 있지만 한계 p ( c ) 는 계산할 수 없습니다 . ( p 가 가장 높은 상태를 얻는 것이 좋은 방법일까요?p(c|θ)p(c)입니까?)p(c,θ)

(4) 가변 추론을 갖는 DP-GMM :

일부 라이브러리는 변형 추론을 사용하는 것을 보았습니다. 나는 Variational Inference를 잘 모르지만 거기에 식별 문제가 없다고 생각합니다. 그러나 가능한 경우 MCMC 방법을 고수하고 싶습니다.

모든 참조가 도움이 될 것입니다.


접근법 3 (후부 모드)에서 를 사용할 수 없다는 불만은 나에게 의미가 없습니다. 이 특정 문제보다 일반적으로 MCMC에 대한 불만처럼 보입니다. p(c)
shadowtalker

예, 정확히, MCMC는 대한 액세스 권한을 부여하지 않으므로 체인의 주어진 상태에서 픽업 할 수 없다고 가정합니다. p(c)
alberto

그것은 의도적으로 설계된 것 입니다. 실제로 MCMC를 뛰어 넘습니다. 이는 베이지안 모델의 기본 제공 기능입니다. 부 자연스러운 일을하려고해서 문제가 생겼을 때, 우리가해야 할 일에 집착하는 것 : 분포 추정치를 점 추정치에
부딪히는 것

처음에 이와 같은 작업을 원하지 않는 이유가 있습니다. Dirichlet 프로세스 혼합 모델이 클러스터 수를 일관되게 추정 할 수없는 다양한 의미가 있습니다. 따라서 " true "데이터의 클러스터링). NIPS에서이 주제에 관한 최근 논문이있었습니다.
guy

1
여기를 참조 하십시오 . 나는 대신 구성 요소의 수보다 Poisson을 먼저 제안하고 그것을 구현하기 위해 일종의 레스토랑 프로세스를 유도한다고 제안하지만 이것이 이것이 종이인지 확실하지 않습니다.
guy

답변:


1

내 임시 답변은 p ( c , θ ) 가 단순히 사후 모드가 되도록 를 매개 변수 로 취급하는 것 입니다. 이것이 Niekum과 Barto가 한 것으로 의심됩니다 (옵션 3에서 참조한 논문). 이유 그들은 여부 그들은 사용에 대한 막연한이었다 P ( C , θ ) 또는 P ( C | θcp(c,θ)p(c,θ)는 하나가 다른 것에 비례하기 때문입니다.p(c|θ)

이 답변이 "가칭 적"이라고 말하는 이유는 값을 "매개 변수"로 지정하는 것이 의미론의 문제인지 또는 PhD 보유 사용자 중 하나가 더 기술적 / 이론적 정의를 가지고 있는지 확실하지 않기 때문입니다. 여기서 설명 할 수있을 것입니다.


(,θ)=(|θ)(θ)()

@alberto는 다시이 모델과 관련이 없으며 베이지안 통계와 관련이 있습니다. 여기 참조 : groups.google.com/forum/m/#!topic/stan-users/qH-2Mq219gs를 . 여러 모드가 걱정된다면 여기를 참조하십시오 : groups.google.com/forum/m/#topic/stan-users/RsVo9NUn0yM 및 여기 : stats.stackexchange.com/q/3328/36229
shadowtalker

1

방금이 주제에 대한 자료를 공유하고 싶었습니다. 그 중 일부가이 질문에 대답하는 데 도움이되기를 바랍니다. DP를 클러스터링 에 사용하는 방법을 포함하여 Dirichlet 프로세스 (DP) 에 대한 많은 자습서가 있습니다 . 그들은 같은 "부드러운"범위 이 프레젠테이션 튜토리얼 처럼, 고급에 이 프레젠테이션 튜토리얼 . 후자는 MLSS'07에서 Yee Whye Teh가 제시 한 동일한 튜토리얼의 업데이트 버전입니다. 여기 에서 동기화 된 슬라이드가있는 해당 토크의 비디오를 볼 수 있습니다 . 비디오에 대해 말하면 Tom Griffith의 슬라이드로 흥미롭고 관련성이 높은 또 다른 이야기를 여기서 볼 수 있습니다 . 종이 형식의 자습서와 관련 하여이 자습서 .

마지막으로 두 가지 관련 논문을 공유하고 싶습니다. 계층 적 DP에 관한 이 논문 은 중요하고 관련성이있는 것으로 보인다. Radford Neal 의이 논문 에도 동일하게 적용됩니다 . 당신이에 관심이 있다면 주제 모델링 , 잠재 디리클레 할당 (LDA)는 가장 가능성이 레이더에있을뿐만 아니라합니다. 이 경우, 이 매우 최근의 종이 선물 새롭고 더욱 향상된 LDA 방법. 주제 모델링 영역과 관련하여 David Blei와 그의 공동 연구자들의 연구 논문을 읽는 것이 좋습니다. 이 논문 은 입문서이며 나머지는 그의 연구 간행물 페이지 에서 찾을 수 있습니다 .. 제가 추천 한 자료 중 일부는 귀하에게 너무 기본적 일 수 있음을 알고 있지만 주제에 대해 다룬 내용을 모두 포함 하면 답변 을 찾을 가능성이 높아질 것이라고 생각했습니다 .


나는 당신이 여기서하려는 일을 이해하지만 실제로 질문을 다루지 않습니다.
shadowtalker

1
@ ssdecontrol : 내가 여기서하려고하는 일을 이해하면 (OP를 발견하고 하나 또는 두 가지를 배우는 데 도움이되는) OP의 의견의 요점은 무엇입니까? 내 대답은 주장 적이 대답 만이 희망을 표현 도움이 궁극적으로까지 결정하는 영업 이익이다. 더 나은 답변이 있으면 OP와 커뮤니티에서 높이 평가할 것입니다.
알렉산드르 블 레크

1
그렇습니다, 나는 완전히 이해합니다. 그것은 제가 여기서도하는 일입니다. 그러나 질문은 MCMC 결과에서 클러스터 레이블을 선택하는 올바른 방법에 대해 묻고 있으며 이것이 그 질문을 전혀 다루지 않는다고 생각합니다.
shadowtalker

@AleksandrBlekh 저는 OP가 "기본"을 알고 특정 질문을하기 때문에 주제에서 약간 벗어난 것으로 ssdecontrol에 동의합니다.

1
@AleksandrBlekh 귀하의 게시물에 감사드립니다. 적어도 DP 소개에 대한 좋은 요약입니다. 나는 기본 사항 (중급 수준을 알고 있음)을 알고 있지만 적어도 당신의 참고 문헌으로 인해 LDA로 돌아가서 레이블이 자주 바뀌지 않기 때문에 문제가 발생한다는 것을 깨달았습니다.
alberto February
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.