임시 데이터에 적합한 클러스터링 기술?


13

활동 빈도에 대한 일시적인 데이터가 있습니다. 비슷한 활동 수준으로 뚜렷한 기간을 나타내는 데이터에서 클러스터를 식별하고 싶습니다. 이상적으로 는 사전에 클러스터 수를 지정 하지 않고 클러스터를 식별하고 싶습니다 .

적절한 클러스터링 기술은 무엇입니까? 질문에 대답 할 정보가 충분하지 않은 경우 적절한 클러스터링 기술을 결정하기 위해 제공해야하는 정보는 무엇입니까?

아래는 제가 상상하고있는 데이터 / 클러스터링의 예입니다. 시간에 따른 클러스터링


줄거리가 부드럽게 보간됩니다. 아마 오해의 소지가 있습니다. 지오 데이터와 관련된 "종 방향"이지만 시계열을보고있는 것 같습니다.
종료-익명-무스

1
줄거리에 너무주의를 기울이지 마십시오. 단지 예일뿐입니다. 내가 달성하고자하는 것은 시간에 따라 변하는 변수를 기반으로 한 뚜렷한 시간 에피소드를 식별하는 것입니다. 내 마음
속의 종말

클러스터링, 당신은 대부분의로이 용어를 볼 수 있기 때문에 en.wikipedia.org/wiki/Longitude을 - 귀하의 질문에서 분명하지 않다 무엇을 당신이 클러스터 싶습니다. 예를 들어 "대상"간에 비슷한 동작 을하는 시간 간격 또는 시간이 지남에 따라 동일한 진행 상황을 나타내는 주제를 클러스터링 할 수 있습니다 .
종료-익명-무스

1
혼란을 피하기 위해 '세로'를 '일시적'으로 변경했습니다. 당신의 말을 사용하여, 나는 시간 간격 을 묶고 싶다고 생각합니다 . 그러나 클러스터가 시간에 따라 뚜렷하고 연속적인 에피소드라는 것이 중요합니다.
histelheim

"시계열 분류"또는 "정규 전환 모델"키워드로 검색하면 도움이 될 수 있습니다.
이브

답변:


6

내 자신의 연구에서 가우시안 숨겨진 마르코프 모델은 다음과 같이 적합 할 것 같습니다 .

분명히 활동의 뚜렷한 에피소드를 찾는 것 같습니다.

가우스 숨겨진 마르코프 모델


숨겨진 상태가 몇 개나 있는지 미리 알 필요가 없습니까? 그 문제를 해결할 방법이 있습니까?
JCWong

@JCWong 비모수 Bayesian 변형 (무한 숨겨진 Markov 모델)을 사용하여이를 피할 수 있다고 생각합니다.
jtobin

그러나 HMM은 이벤트를 일시적으로 클러스터링 / 그룹화하지 않는 것 같습니다 (그림에서 보이는 것). 그러나 시간 클러스터를 얻는 방법은 무엇입니까? 나는 일시적인 클러스터링 작업을하고 있기 때문에 궁금합니다.
RussellB

3

유사한 문제 소리가 나는 찾고 있어요 및 비슷합니다 질문,하지만 덜 잘 설명했다.

그들의 답변은 변경 감지에 대한 좋은 요약으로 연결됩니다. 가능한 해결책으로 빠른 Google 검색 으로 Google 코드에서 Change Point Analysis 패키지가 발견되었습니다 . R에는이를위한 몇 가지 도구가 있습니다. bcp패키지는 매우 강력하고 정말 쉽게 사용하는 것입니다. 데이터가 들어올 때 즉시 수행하려는 경우 "게놈 데이터에 적용한 온라인 변경점 탐지 및 매개 변수 추정"문서는 매우 복잡한 접근 방법을 설명하지만 약간 까다 롭다는 경고를받습니다. strucchange패키지 도 있지만 이것은 나에게 덜 효과적입니다.



1

이 페이지를 보셨습니까 : UCR 시계열 분류 / 클러스터링 페이지 ?

실습 및 게시 된 결과-자체 구현의 성능 비교 (잘 알려진 기계 학습 기술의 알려진 성능에 대한 링크도 있음)를 모두 찾을 수 있습니다. 또한이 페이지는 문제, 데이터 또는 요구에 적합한 최상의 접근 방법에 대한 연구를 계속 진행할 수있는 중요한 논문을 인용합니다.

또한 sequitur http : // sequitur.info를 적용하여 (잠재적으로) 다른 방법으로 수행 할 수 있습니다. 데이터를 정상적으로 정규화 / 근사 할 수 있다면, "유사한 활동 수준의 명확한 시간"에 대한 문법을 ​​제공 할 것입니다.이 백서를 보고 다른 것을 검색 하십시오 .


3
이 페이지에서 사용 가능한 리소스에 대한 간략한 요약을 제공 할 수 있습니까?
chl

확실히 내가 할 수 있습니다. 거기서부터 나는 내 자신의 분류기를
seninp

1

동적 시계 줄 바꿈을 사용하여 다른 시계열 간의 유사점을 찾을 수 있다고 생각합니다. 그렇게하려면 웨이블릿을 배열과 같은 모음으로 분리해야합니다. 그러나 세분성은 문제가 될 것입니다. 시계열이 많으면 모든 쌍의 DTM 거리를 계산하는 데 계산 비용이 상당히 커집니다. 따라서 레이블로 작동하려면 사전 선택이 필요할 수 있습니다.

이것을 확인하십시오 . 나는 또한 너와 같은 일을하고 있는데이 페이지가 나에게 도움이되었다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.