DTW (Dynamic Time Warping)를 사용하여 시계열의 클러스터링을 수행하는 방법은 무엇입니까?
두 시계열의 유사성을 찾는 방법으로 DTW에 대해 읽었지만 시간이 바뀔 수 있습니다. 이 방법을 k- 평균과 같은 클러스터링 알고리즘의 유사성 측정으로 사용할 수 있습니까?
DTW (Dynamic Time Warping)를 사용하여 시계열의 클러스터링을 수행하는 방법은 무엇입니까?
두 시계열의 유사성을 찾는 방법으로 DTW에 대해 읽었지만 시간이 바뀔 수 있습니다. 이 방법을 k- 평균과 같은 클러스터링 알고리즘의 유사성 측정으로 사용할 수 있습니까?
답변:
마십시오 하지 시계열을 위해 K-수단을 사용합니다.
DTW는 평균에 의해 최소화 되지 않습니다 . k- 평균은 수렴하지 않을 수 있으며 수렴 되더라도 매우 좋은 결과를 얻지 못할 수 있습니다. 평균은 좌표에서 최소 제곱 추정기입니다. 임의의 거리가 아닌 분산을 최소화하고 k- 평균은 임의의 거리가 아닌 분산을 최소화하도록 설계되었습니다 .
대신 DTW를 사용하여 거리 매트릭스를 계산 한 다음 단일 링크와 같은 계층 적 클러스터링을 실행하십시오. k- 평균과 달리 계열의 길이는 다를 수도 있습니다.
예, 시계열의 분류 및 클러스터링에 DTW 접근 방식을 사용할 수 있습니다 . 나는이 주제에 초점을 맞춘 다음과 같은 리소스를 편집했습니다 (최근에 비슷한 질문에 대답했지만이 사이트에서는 그렇지 않으므로 모든 사람들의 편의를 위해 여기에 내용을 복사하고 있습니다).
Petitjean et al. 은 최근 DTW Barycenter Averaging (DBA) 방법을 제안했습니다 . 평균 시계열. 에서 다른 종이 들은 경험적으로 입증 이론적으로는 K-수단 시계열을 클러스터링하는 방법을. 구현자는 작성자가 GitHub에서 제공합니다 ( code 링크 ).
1 F. Petitjean, G. Forestier, GI Webb, AE Nicholson, Y. Chen 및 E. Keogh, "시계열의 동적 시간 왜곡 평균화로 더 빠르고 정확한 분류 허용"2014 IEEE 데이터 마이닝 국제 회의, 2014 년 심천 .
2 F. Petitjean, P. Gançarski, 평균을 계산하여 시계열 세트 요약 : Steiner 시퀀스에서 소형 다중 정렬까지, 이론적 컴퓨터 과학, Volume 414, Issue 1, 2012
Dynamic Time Warp은 작동하거나 작동하지 않을 수있는 실현 된 데이터 포인트를 비교합니다. 보다 엄격한 접근 방식은 망원경 거리 라는 메트릭을 통해 시계열 분포 를 비교하는 것입니다 .
이 메트릭의 멋진 점은 경험적 계산이 SVM과 같은 일련의 이진 분류기를 적용하여 수행된다는 것입니다.
클러스터링 시계열의 경우 DTW를 능가하는 것으로 나타났습니다. 원본 용지의 표 1을 참조하십시오 [1].
[1] Ryabko, D., & Mary, J. (2013). 시계열 분포와 통계 및 학습 문제에서의 사용 간의 이진 분류 기반 메트릭입니다. 기계 학습 연구 저널, 14 (1), 2837-2856.
예. 순진하고 잠재적으로 느린 접근 방식은 다음과 같습니다.
n! / k! / (n-k)!
입니다. 이것들은 잠재적 센터와 같은 것입니다.나는 이것을 작은 프로젝트에 사용했습니다. 여기 시계열 클러스터링에 대한 저의 저장소 와 이에 대한 다른 답변 이 있습니다.