동적 시간 왜곡 클러스터링


40

DTW (Dynamic Time Warping)를 사용하여 시계열의 클러스터링을 수행하는 방법은 무엇입니까?

두 시계열의 유사성을 찾는 방법으로 DTW에 대해 읽었지만 시간이 바뀔 수 있습니다. 이 방법을 k- 평균과 같은 클러스터링 알고리즘의 유사성 측정으로 사용할 수 있습니까?


2
예, k를 입력하여 유사성 측정 값을 클러스터링을 사용한 다음 데이터의 그룹을 결정할 수 있습니다.
예측 자

답변 주셔서 감사합니다. 각 반복에 대해 각 (중심점, 군집 점) 쌍에 대한 거리 행렬을 형성하고 군집에 속하는 모든 시리즈의 평균으로 표준 방식으로 중심을 다시 계산해야한다고 생각합니다.
Marko

1
아래 답변의 Aleksandr Blekh에는 R에서이를 수행하는 방법에 대한 자세한 예를 제공하는 블로그 게시물이 있습니다.
예측 자

2
@forecaster는 DTW와 함께 k- 평균을 사용 하지 않습니다 . k- 평균은 거리가 아닌 분산을 최소화합니다. 분산은 제곱 유클리드이지만 k- 평균이 다른 거리를 최적화 할 수있는 것은 아닙니다. 평균은 그렇지 않으며 DTW에서는 의한 사인파 오프셋과 같이 반례를 구성하는 것이 다소 쉬워야합니다 . 둘 다 DTW와 매우 유사하지만 평균은 0입니다. 둘 다와 매우 다릅니다. π
Anony-Mousse

1
K- 평균은 시계열 클러스터링에 적합한 알고리즘이 아닙니다. 불연속 종 데이터에 대한 숨겨진 마르코프 모델이 적합합니다. 현재이 주제에 관한 몇 권의 책과 Oded Netzer (콜롬비아) 및 Steve Scott (Google)의 주요 공헌도 있습니다. 또 다른 접근법은 Max Planck의 Andreas Brandmaier가 개발 한 정보 이론적 방법으로 순열 분포 클러스터링이라고합니다. 그는 또한 R 모듈을 작성했습니다. 클러스터 솔루션의 비교는 다른 문제입니다. Marina Meila의 논문, 클러스터링 비교, U. Washington 통계 기술 보고서 ​​418이 가장 좋습니다.
Mike Hunter

답변:


33

마십시오 하지 시계열을 위해 K-수단을 사용합니다.

DTW는 평균에 의해 최소화 되지 않습니다 . k- 평균은 수렴하지 않을 수 있으며 수렴 되더라도 매우 좋은 결과를 얻지 못할 수 있습니다. 평균은 좌표에서 최소 제곱 추정기입니다. 임의의 거리가 아닌 분산을 최소화하고 k- 평균은 임의의 거리가 아닌 분산을 최소화하도록 설계되었습니다 .

π2

대신 DTW를 사용하여 거리 매트릭스를 계산 한 다음 단일 링크와 같은 계층 적 클러스터링을 실행하십시오. k- 평균과 달리 계열의 길이는 다를 수도 있습니다.


4
물론, 임의의 거리에서 작동하는 PAM (K-medoids)이 있습니다. 임의의 거리를 지원하는 많은 알고리즘 중 하나-k- 평균은 지원하지 않습니다. 다른 선택은 DBSCAN, OPTICS, CLARANS, HAC, ...입니다.
Anony-Mousse

1
아마. k- 메도 이드는 L2 평균이 아니라 클러스터 중심을 찾기 위해 DTW- 메도 이드를 사용하기 때문입니다. 나는 시계열의 실제 성공적인 클러스터링을 모른다. 나는 종이를 보았지만 실제로 결과를 사용한 것은 없었습니다 . 개념 증명 만.
Anony-Mousse

1
@Aleksandr Blekh 그의 사례 중 하나로서이 준 nbviewer.ipython.org/github/alexminnaar/... 그것에 대해 당신의 의견은 무엇입니까?
Marko

1
장난감 문제. 현실에서는 쓸모가 없습니다. 실제 데이터에는 노이즈가 많기 때문에 매끄러운 사인 곡선과이 데이터에 제시된 패턴보다 훨씬 더 많은 영향을 미칩니다.
Anony-Mousse

1
계층 적 클러스터링이 더 나은 선택이라고 생각합니다. 어쨌든 수많은 시리즈를 처리 할 수 ​​없습니다.
Anony-Mousse

49

예, 시계열의 분류 및 클러스터링에 DTW 접근 방식을 사용할 수 있습니다 . 나는이 주제에 초점을 맞춘 다음과 같은 리소스를 편집했습니다 (최근에 비슷한 질문에 대답했지만이 사이트에서는 그렇지 않으므로 모든 사람들의 편의를 위해 여기에 내용을 복사하고 있습니다).


2
기사 및 블로그 모음 +1 아주 좋은 참고 문헌.
예측 자

@forecaster : 변덕스럽고 친절한 말에 감사드립니다! 컬렉션이 마음에 드네요. 현재 예측과 다른 많은 통계 및 데이터 과학 분야를 더 심각하게 배울 시간이 없다는 것이 너무 슬프지만, 새로운 기회를 찾기 위해 모든 기회를 이용합니다.
Aleksandr Blekh

1
@AleksandrBlekh 귀하의 답변에 대해 진심으로 감사드립니다. 저는이 문제에 대해 Anony-Mousse와 논의했습니다. 특히 DTW에 K- 평균의 유사성 측정법에 관심이 있기 때문에 중심 값을 출력으로 얻을 수 있습니다. 그것에 대한 당신의 의견과 경험은 무엇입니까? 보시다시피 Anony-Mousse는이 경우 결과가 좋지 않을 수도 있다는 몇 가지 주장을 제시했습니다 ... 실제 문제에 대한 개인적인 경험이 있습니까?
Marko

1
다시 한 번 감사드립니다. 내 질문은 k- 평균 및 DTW에 더 중점을두기 때문에 나에게 +1이 있고 응답이 수락됩니다.
Marko

1
@ 페라 : 내 기쁨. 공감 해 주셔서 감사합니다. 전혀 문제없이 수락에 대해 완전히 이해하고 동의합니다.
Aleksandr Blekh

1

Petitjean et al. 은 최근 DTW Barycenter Averaging (DBA) 방법을 제안했습니다 . 평균 시계열. 에서 다른 종이 들은 경험적으로 입증 이론적으로는 K-수단 시계열을 클러스터링하는 방법을. 구현자는 작성자가 GitHub에서 제공합니다 ( code 링크 ).

1 F. Petitjean, G. Forestier, GI Webb, AE Nicholson, Y. Chen 및 E. Keogh, "시계열의 동적 시간 왜곡 평균화로 더 빠르고 정확한 분류 허용"2014 IEEE 데이터 마이닝 국제 회의, 2014 년 심천 .

2 F. Petitjean, P. Gançarski, 평균을 계산하여 시계열 세트 요약 : Steiner 시퀀스에서 소형 다중 정렬까지, 이론적 컴퓨터 과학, Volume 414, Issue 1, 2012


2
링크 대신 전체 참조를 제공하십시오. 링크는 죽을 수있다
Antoine

1

Dynamic Time Warp은 작동하거나 작동하지 않을 수있는 실현 된 데이터 포인트를 비교합니다. 보다 엄격한 접근 방식은 망원경 거리 라는 메트릭을 통해 시계열 분포 를 비교하는 것입니다 .

이 메트릭의 멋진 점은 경험적 계산이 SVM과 같은 일련의 이진 분류기를 적용하여 수행된다는 것입니다.

간단한 설명은 내용을 참조 하십시오 .

클러스터링 시계열의 경우 DTW를 능가하는 것으로 나타났습니다. 원본 용지의 표 1을 참조하십시오 [1].

[1] Ryabko, D., & Mary, J. (2013). 시계열 분포와 통계 및 학습 문제에서의 사용 간의 이진 분류 기반 메트릭입니다. 기계 학습 연구 저널, 14 (1), 2837-2856.


2
시도한 편집자 메모 : "제레미 메리 (공저 저자)는 R 구현 알고리즘을 설명 하는 웹 페이지를 가지고 있습니다.
gung-Reinstate Monica

@ gung 와우, 훌륭합니다! 나는 첫 번째 저자와 서신을 가지고 있었고 이것을 언급하지 않았습니다.
horaceT

나는 실제로 이것을 편집하려고 한 사람 (@horaceT)에서 복사하고 있습니다. 나는 그것에 대해 너무 많이 모른다.
gung-복직 모니카

0

예. 순진하고 잠재적으로 느린 접근 방식은 다음과 같습니다.

  1. 모든 클러스터 조합을 작성하십시오. k는 군집 수를 나타내고 n은 계열 수를 나타냅니다. 반환되는 항목 수는 n! / k! / (n-k)!입니다. 이것들은 잠재적 센터와 같은 것입니다.
  2. 각 계열 에 대해 각 군집 그룹의 각 중심에 대해 DTW 를 통해 거리를 계산 하고이를 최소 한도에 할당하십시오.
  3. 각 군집 그룹에 대해 개별 군집 내 총 거리를 계산하십시오.
  4. 최소값을 선택하십시오.

나는 이것을 작은 프로젝트에 사용했습니다. 여기 시계열 클러스터링에 대한 저의 저장소이에 대한 다른 답변 이 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.