시계열 데이터 세트가 있습니다. 각 시계열의 실제 날짜가 모두 정확하게 '정렬'되는 것은 아니지만 각 시리즈는 동일한 기간을 포함합니다.
즉, 시계열을 2D 행렬로 읽으면 다음과 같이 보일 것입니다.
date T1 T2 T3 .... TN
1/1/01 100 59 42 N/A
2/1/01 120 29 N/A 42.5
3/1/01 110 N/A 12 36.82
4/1/01 N/A 59 40 61.82
5/1/01 05 99 42 23.68
...
31/12/01 100 59 42 N/A
etc
시계열 {T1, T2, ... TN}을 '가족'으로 분리하는 R 스크립트를 작성하려고합니다. 여기서 가족은 서로 "공감하는 경향이있는 시리즈"로 정의됩니다.
'클러스터링'부분을 위해, 나는 일종의 거리 측정을 선택 / 정의해야합니다. 시계열을 다루고 있기 때문에이 문제를 해결하는 방법을 잘 모릅니다. 한 간격 동안 동정적으로 움직일 수있는 일련의 시리즈는 후속 간격에서 그렇게하지 않을 수 있습니다.
나는 여기보다 나보다 훨씬 경험이 많고 영리한 사람들이 있다고 확신하므로 거리 측정에 사용할 알고리즘 / 휴리스틱에 대한 아이디어, 시계열 클러스터링에서 사용하는 방법에 대한 제안에 감사드립니다.
내 추측으로는이 작업을 수행 할 수있는 강력한 통계 방법이 없기 때문에 사람들이 통계 문제처럼 생각 하고이 문제를 어떻게 해결 / 해결하는지에 매우 관심이 있습니다.