1 차 Markov 체인의 클러스터 평가


10

수천 개의 1 차 Markov 체인의 데이터 세트를 약 10 개의 클러스터로 클러스터링했습니다.

이러한 클러스터를 평가하고 클러스터의 항목이 공유하고 다른 클러스터와 어떻게 다른지 알아낼 수있는 권장 방법이 있습니까? 따라서 "클러스터 A의 프로세스는 일단 도착하면 상태 Y를 유지하는 경향이 있습니다. 이는 다른 클러스터의 프로세스에는 해당되지 않습니다."

이러한 Markov 체인의 전이 행렬은 너무 커서 "보이고"볼 수 없습니다. 도움이 될 수 있다면 비교적 희소합니다.

내 생각은 모든 전이 행렬을 클러스터로 가져 와서 합산하여 그림의 강도 (0에서 255까지의 규모)로 플롯하는 것이 었습니다. 시도해야 할 "전문적인"것이 있습니까?


당신이 할 알고 (방법, 그렇다면, 등) 이러한 프로세스는 일차 시장 체인 것을? 이에 대한 대답은 긍정적이다 가정하면, 추가적인 어떤 사전 정보는 구조에 대해 알고 있습니까? 우선 클러스터링에 관심이있는 이유를 파악하려고합니다. 나는 이것이 독자들이 솔루션을보다 효율적으로 안내하는 데 도움이 될 것이라고 생각합니다.
추기경

원래 데이터는 내 사이트의 사용자가 생성 한 클릭 스트림입니다. Markov 프로세스를 만들었으므로 각 프로세스는 한 사용자의 클릭 스트림을 설명하는 것입니다. 나는 마르코프 체인이 이것에 적합하지 않다고 말하는 책과 논문이 있다는 것을 알고 있지만, 내 데이터에는 사용자가 요청한 정확한 URL이 포함되어 있지 않으며 URL이 속한 "응용 프로그램"만 포함되어 있습니다. (내 사이트는 소위 "응용 프로그램"이라고하는 105 개의 정보 시스템으로 구성되어 있으며, 대부분은 자체 페이지의 자체 포함 부분이며 모든 페이지의 홈 페이지와 사이드 메뉴를 통해 연결됩니다)
user7610

사이트 사용과 비슷한 패턴을 가진 사용자 그룹을 공개하고 싶기 때문에 클러스터링에 관심이 있습니다. 나는 Markov 체인이 포착하는 패턴이 그러한 그룹을 구별하기에 충분하다고 가설을 세웠다. 필자가 만든 클러스터가 사용자가 사이트에서 수행 한 역할에 해당하는 방식을 확인했으며 클러스터에는 항상 하나의 역할에서 많은 사용자가 있고 다른 역할에서는 몇 명의 사용자가 있으므로 유망 해 보입니다. 도움이
되길 바랍니다

안녕하세요, 같은 문제가 발생했습니다. 마지막으로 문제를 어떻게 해결 했습니까?
nan

@nan, 나는 단지 용어 프로젝트에서만 이것을 필요로 했으므로 단순히 다른 것을했습니다. 지금 해결해야한다면 초기 클러스터링에 대해 en.wikipedia.org/wiki/… 를 살펴보십시오 . t-SNE는 요즘 매우 인기가 높고 IMO가 적합합니다. 내가 얻는 결과가 내가 특별한 접근 방식으로 얻은 결과보다 더 의미가 있기를 바랍니다. 그리고 비교적 새로운 초 냉각 적 인 것을 사용하면 교사를 만족시킬 것입니다.)
user7610

답변:


1

각 군집의 정상 상태 동작에 대해 설명하려면 고유 벡터로 각 전이 행렬의 정상 상태 분포를 계산 한 다음 군집별로 상자 그림을 비교할 수 있습니다. 어떤 종류의 스무딩을 먼저 적용하지 않고 정상 상태를 계산할 때 문제가 발생할 수 있습니다.

전이 행렬을 어떻게 클러스터링합니까? 그것이 내가 있다면, 나는 각 행에 추가 평활을 적용하고 각 행의 중심 로그 비율 변환을 취한 다음 행렬을 평평하게 만들 것입니다.

K- 평균 또는 변형을 사용하여 군집화하는 경우 정규화 된 군집 중심을 분석 할 수 있습니다. 또는 각 군집에서 관측치를 몇 개 선택하여 분석하십시오.


0

먼저 아이디어를 얻으려면 언급 한 응용 프로그램과 일치하는 105 x 105 차원의 행렬이 있습니까? 'Y 상태 유지'라고 말하면 응용 프로그램 Y를 고수한다는 의미입니까?

그런 다음 "클러스터 A의 프로세스는 일단 도착하면 상태 Y에 머무르는 경향이 있으며 다른 클러스터의 프로세스에는 해당되지 않습니다"와 같은 결과는 단지 10 개의 클러스터로 너무 세밀한 것으로 가정합니다. 응용 프로그램 도메인의 클러스터링을 시도 했습니까? 제대로 이해하면 사용자 동작을 기반으로 105 개의 응용 프로그램을 클러스터링 할 수 있습니다. 다음으로, 전환이 아닌 단순한 사용자의 존재, 즉 105 개의 응용 프로그램에서 사용자의 프로파일을 살펴 봤습니까? 마치 사용자 프로필간에 Pearson 계수를 사용할 수있는 것처럼 들립니다. 응용 프로그램 클러스터 또는 응용 프로그램 자체에서. 이것은 아마도 응용 프로그램 간 전환으로 확장 될 수 있지만 현재 클러스터 수와 관심있는 결과 유형 사이에 큰 불일치가 있다고 생각합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.