활동 빈도에 대한 일시적인 데이터가 있습니다. 비슷한 활동 수준으로 뚜렷한 기간을 나타내는 데이터에서 클러스터를 식별하고 싶습니다. 이상적으로 는 사전에 클러스터 수를 지정 하지 않고 클러스터를 식별하고 싶습니다 .
적절한 클러스터링 기술은 무엇입니까? 질문에 대답 할 정보가 충분하지 않은 경우 적절한 클러스터링 기술을 결정하기 위해 제공해야하는 정보는 무엇입니까?
아래는 제가 상상하고있는 데이터 / 클러스터링의 예입니다.
활동 빈도에 대한 일시적인 데이터가 있습니다. 비슷한 활동 수준으로 뚜렷한 기간을 나타내는 데이터에서 클러스터를 식별하고 싶습니다. 이상적으로 는 사전에 클러스터 수를 지정 하지 않고 클러스터를 식별하고 싶습니다 .
적절한 클러스터링 기술은 무엇입니까? 질문에 대답 할 정보가 충분하지 않은 경우 적절한 클러스터링 기술을 결정하기 위해 제공해야하는 정보는 무엇입니까?
아래는 제가 상상하고있는 데이터 / 클러스터링의 예입니다.
답변:
내 자신의 연구에서 가우시안 숨겨진 마르코프 모델은 다음과 같이 적합 할 것 같습니다 .
분명히 활동의 뚜렷한 에피소드를 찾는 것 같습니다.
유사한 문제 소리가 나는 찾고 있어요 및 이 비슷합니다 질문,하지만 덜 잘 설명했다.
그들의 답변은 변경 감지에 대한 좋은 요약으로 연결됩니다. 가능한 해결책으로 빠른 Google 검색 으로 Google 코드에서 Change Point Analysis 패키지가 발견되었습니다 . R에는이를위한 몇 가지 도구가 있습니다. bcp
패키지는 매우 강력하고 정말 쉽게 사용하는 것입니다. 데이터가 들어올 때 즉시 수행하려는 경우 "게놈 데이터에 적용한 온라인 변경점 탐지 및 매개 변수 추정"문서는 매우 복잡한 접근 방법을 설명하지만 약간 까다 롭다는 경고를받습니다. strucchange
패키지 도 있지만 이것은 나에게 덜 효과적입니다.
웨이블릿은 다른 속성으로 기간을 식별하는 데 도움이 될 수 있습니다. 그러나 시계열을 별도의 기간으로 나눌 방법이 있는지 확실하지 않습니다. 그리고 그것은 시작될 때에 만 지나칠 많은 이론이있는 것처럼 보입니다. 나는 다른 제안을 읽을 수 있기를 기대합니다 ..
이 페이지를 보셨습니까 : UCR 시계열 분류 / 클러스터링 페이지 ?
실습 및 게시 된 결과-자체 구현의 성능 비교 (잘 알려진 기계 학습 기술의 알려진 성능에 대한 링크도 있음)를 모두 찾을 수 있습니다. 또한이 페이지는 문제, 데이터 또는 요구에 적합한 최상의 접근 방법에 대한 연구를 계속 진행할 수있는 중요한 논문을 인용합니다.
또한 sequitur http : // sequitur.info를 적용하여 (잠재적으로) 다른 방법으로 수행 할 수 있습니다. 데이터를 정상적으로 정규화 / 근사 할 수 있다면, "유사한 활동 수준의 명확한 시간"에 대한 문법을 제공 할 것입니다.이 백서를 보고 다른 것을 검색 하십시오 .