시계열을 클러스터링하는 방법?


22

클러스터 분석에 대한 질문이 있습니다. 5 년 동안 전력 사용량에 따라 클러스터링해야하는 3000 개의 회사가 있습니다. 각 회사는 5 년 동안 1 시간마다 값을 갖습니다. 일부 회사에서 일정 기간 동안 동일한 사용 전력 패턴을 갖고 있는지 확인하고 싶습니다. 결과는 전력 사용량을 매일 예측하는 데 사용해야합니다. SPSS에서 시계열을 클러스터링하는 방법에 대한 아이디어가 있으면 공유하십시오.


1
페이지 오른쪽의 관련 링크를 확인하시기 바랍니다. 매우 유사한 특성에 대한 몇 가지 질문이 있습니다. 곡선 모양을 기반으로 시계열 군집을 수행 할 수 있습니까?를 참조하십시오 . 시간의 효과는 개인 사이에 함수 형태 변화 전후 데이터 모델링 단지 두 가지 예를 들어.
Andy W

SAS의 Proc Similarity는 시계열을 클러스터링 할 수 있습니다.
예측 자

답변:


11

A) 데이터 전처리에 많은 시간을 소비하십시오 . 전처리는 작업의 90 %입니다.

B) 시계열에 대한 적절한 유사성 측정을 선택하십시오. 예를 들어, 여기서 임계 교차 거리가 좋은 선택 일 수 있습니다. 시간대가 다른 경우가 아니라면 동적 시간 왜곡 거리를 원하지 않을 것입니다. 임계 값 교차는 실제 패턴 (회사마다 매우 다를 수 있음)에주의를 기울이지 않으면 서 일시적인 패턴을 감지하는 데 더 적합 할 수 있습니다.

C) 임의의 거리 함수와 함께 작동 할 수있는 계층 적 군집 또는 DBSCAN과 같은 방법을 사용하여 결과 불일치 행렬을 군집화합니다.


동적 시계열 거리가 시계열 군집에 적합하지 않은 이유를 설명 할 수 있습니까?
Hardik Gupta

그것은 일반적인 진술이 아닙니다. 좋은지 아닌지는 시간 왜곡을 허용할지 여부에 달려 있습니다.
Anony-Mousse

7

매일, 매주 및 매년 주기로 예측 시간별 시계열 을 볼 수 있습니다.일일 데이터 및 휴일 / 회귀 자와 관련된 시간별 데이터에 대한 토론 5 년간의 데이터가 있고 다른 토론에는 883 개의 일일 값이 포함되어 있습니다. 내가 제안하는 것은 요일과 같은 회귀자를 포함하는 시간별 예측을 작성할 수 있다는 것입니다. 일별 합계를 추가 예측 변수로 사용하여 연중 무휴. 이런 식으로 3,000 개 회사 각각에 대해 24 개의 모델을 갖게됩니다. 이제는 시간 단위로, 각 회귀 기, 요일, 요일 변경에 대한 반응 패턴을 설명하는 공통 ARIMAX 구조를 사용하여 3,000 개의 모델을 추정하십시오. 특이 치를 분리하는 동안 매개 변수 및 주간 지표. 그런 다음 3000 개 회사를 사용하여 전 세계적으로 매개 변수를 추정 할 수 있습니다. 차우 테스트 수행 http://en.wikipedia.org/wiki/Chow_test매개 변수의 불변성과 거부시 클러스터를 동종 그룹으로 묶습니다. 이것을 단일 차원 군집 분석이라고합니다. SPSS에는 시계열 기능이 매우 제한되어 있으므로 다른 곳에서 소프트웨어를 찾아 볼 수 있습니다.


1
"vanilla"는 R에 대해 사용하는 이상한 단어 인 것 같습니다. 보다 일반적인 R 용어로 번역에 대해서는 명확하지 않습니다. CRAN의 기본 R과 추가 기여 패키지 간의 차이점은 숙련 된 사용자 또는 초보자도 동등하게 무료이며 똑같이 액세스 할 수 있으므로 물지 않습니다. SPSS에 액세스 할 수있는 사람은 프로그래밍없이 SPSS에서 현재 불가능한 일을 상당히 쉽게 말할 수 있습니다. R에 대해서도 마찬가지로 모든 시계열 패키지에 익숙해야합니다.
Nick Cox
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.