계절성 또는 기타 패턴의 변화를 나타내는 시계열을 처리하는 방법은 무엇입니까?


22

배경

에너지 미터 판독 값의 시계열 데이터 세트를 작업 중입니다. 시리즈의 길이는 미터에 따라 다릅니다. 일부는 몇 년 동안, 다른 일부는 몇 개월에 불과합니다. 많은 사람들이 일, 주 또는 연도 내에 상당한 계절 성과 종종 여러 레이어를 표시합니다.

내가 작업 한 것 중 하나는 이러한 시계열의 클러스터링입니다. 저의 작업은 현재 학업 적이며 데이터에 대한 다른 분석도 수행하는 동안 클러스터링을 수행하는 구체적인 목표가 있습니다.

나는 다양한 기능을 계산하는 초기 작업을 수행했습니다 (주말 대 주중에 사용 된 백분율, 다른 시간 블록에 사용 된 백분율 등). 그런 다음 DTW (Dynamic Time Warping)를 사용하여 다른 계열 간의 거리를 구하고 차이 값을 기반으로 클러스터링하는 방법을 살펴 보았으며 이와 관련된 여러 논문을 발견했습니다.

의문

특정 계열 변경의 계절성으로 인해 클러스터링이 잘못됩니까? 그렇다면 어떻게 처리합니까?

내 관심사는 시계열 패턴이 변경된 경우 DTW에서 얻은 거리가 잘못 될 수 있다는 것입니다. 이로 인해 클러스터링이 잘못 될 수 있습니다.

위의 내용이 명확하지 않은 경우 다음 예를 고려하십시오.

실시 예 1

미터는 자정부터 오전 8 시까 지 낮은 판독 값을 가지고 있으며, 그 다음 판독은 다음 한 시간 동안 급격히 증가하고 오전 9시에서 오후 5 시까 지 높게 유지 된 후 다음 시간 동안 급격히 감소한 다음 오후 6 시부 터 자정까지 낮게 유지됩니다. 미터는이 패턴을 몇 개월 동안 매일 지속적으로 유지하지만 판독 값이 하루 종일 일정한 수준으로 유지되는 패턴으로 변경됩니다.

실시 예 2

미터는 매월 소비되는 에너지와 거의 같은 양을 보여줍니다. 몇 년 후, 여름철에는 에너지 사용량이 더 많은 패턴으로 바뀌어 평상시 금액으로 돌아갑니다.

가능한 방향

  • 전체 시계열을 계속 비교할 수 있을지 궁금했지만 패턴을 크게 변경하면 분할하여 별도의 시리즈로 간주합니다. 그러나 이렇게하려면 그러한 변경 사항을 감지 할 수 있어야합니다. 또한 이것이 적절한 방법인지 또는 데이터 작업인지 모르겠습니다.
  • 또한 데이터를 분할하고 별도의 시계열로 간주하는 것도 고려했습니다. 예를 들어, 나는 매일 / 미터 조합을 별도의 시리즈로 생각할 수 있습니다. 그러나 매주 / 매월 / 매년 패턴을 고려하려면 비슷한 작업을 수행해야합니다. 나는 이것이 효과가 있다고 생각 하지만, 잠재적으로 상당히 번거롭고 내가 누락 된 더 좋은 방법이 있다면이 길을 가고 싶지 않습니다.

추가 사항

이것들은 의견에 등장한 것, 또는 의견으로 인해 생각한 것입니다. 사람들이 관련 정보를 얻기 위해 모든 것을 읽을 필요가 없도록 여기에 넣었습니다.

  • 나는 파이썬에서 일하고 있지만 R이 더 적합한 곳에서는 rpy를 가지고 있습니다. 필자는 반드시 파이썬 답변을 찾고있는 것은 아닙니다. 누군가해야 할 일에 대한 실질적인 답변이 있다면 구현 세부 사항을 스스로 알아내는 것이 행복합니다.
  • 작업중인 "거친 초안"코드가 많이 있습니다. DTW 실행을 수행하고 몇 가지 다른 유형의 클러스터링을 수행했습니다. 실제로 찾고있는 것은 거리를 찾고 클러스터링을 실행하기 전에 데이터를 처리하는 방법과 관련이 있습니다.이를 감안할 때 시리즈 간 거리가 DTW를 통해 계산되는지 또는 더 간단한 유클리드 거리 (ED)를 통해 계산되는지에 대한 대답은 같을 것입니다.
  • 나는이 논문들이 특히 시계열과 DTW에 대한 유익한 정보를 발견했으며 주제 영역에 대한 배경 지식이 필요할 경우 도움이 될 수있다 : http://www.cs.ucr.edu/~eamonn/selected_publications.htm

+1 매우 좋은 질문이며, 많은 열정을 보는 것이 좋습니다! 나는 당신이 당신의 질문을 조금만 적을 수 있다고 생각합니다. 그래서 다른 사람들이 더 많이 읽은 다음 답을 줄 수 있습니다.
Rubens

@Rubens 감사합니다! 오늘 저녁 집에있을 때 다시 작업하겠습니다.이 시점에 도달 한 방법과 이유에 대한 추가 정보를 포함하는 것이 유용한 위치를 확인할 수 있습니다. 너무 오래 걸리는 것에 대해 걱정했지만 배경을 분리하고 읽을 수 없게되는 것을 피하기 위해 조금 더 질문 할 것입니다.
Jo Douglass

"순수한 통계"질문은 아니지만 순수한 통계 답변이 필요합니다. 순수한 통계 용어로 생각할 수있을 때까지 어려움을 겪게됩니다.
Spacedman

@Spacedman-나는 사람들이 그것을 대답하는 가장 좋은 방법이라고 생각하는 어떤 방식 으로든 대답을 환영합니다. 대답이 아직 이해하지 못하는 공식이나 통계 개념에 대한 언급이 많을 경우 더 많은 질문이있을 수 있다는 경고가 있습니다.
Jo Douglass

조 당신은 당신의 질문에 대한 정답을 찾았습니까? 나는 같은 상황에 있고 도움이 필요합니다. 감사합니다
LSola

답변:


14

귀하의 질문을 읽은 후 시계열 클러스터링동적 시간 왜곡 (DTW) 주제에 대해 궁금해졌습니다 . 따라서 제한된 검색을 수행하고 기본 이해 (나를 위해)와 다음 IMHO 관련 참조 세트 (귀하를 위해)를 생각해 냈습니다 . 이 정보가 도움이 되길 바랍니다. 그러나 주제의 실제적인 측면 에 더 관심이 있기 때문에 의도적으로 연구 논문을 건너 뛰었습니다 .

자원:


1
이것들 중 다수는 내가보고있는 리소스입니다-예를 들어 2와 4 지점에서 수정 된 버전의 작업을 구현했습니다. 우리는 아마도 같은 페이지에있을 것입니다. 그리고 내가 아는 대부분의 내용은 Eamonn Keogh의 논문 또는 그에 기반한 기사를 기반으로합니다. 그러나 내가 읽지 않은 몇 가지가 있으며 자전거 공유 시계열 클러스터링에 대한 것은 흥미 롭습니다. 감사합니다! 나는 특별히 내 질문에 대답하는 것을 보지 못했지만 읽는 동안 무언가를 놓친 경우 지적하십시오.
Jo Douglass

1
또한이 흥미로운 것을 여전히 발견한다면 Keogh의 논문은 실제로 읽을 가치가 있습니다. 많은 데이터 세트를 사용하고 누군가가 모든 실험을 재현 할 수있는 충분한 정보를 제공하는 데 중점을 두어 놀랍게도 읽기 쉽고 실용적입니다. 가장 최근의 것은 흥미롭고, 내 질문에 부딪쳤을 때 내가 겪고 있었던 일입니다. cs.ucr.edu/~eamonn/selected_publications.htm
Jo Douglass

1
@JoDouglass : 천만에요! 나는 (주제에 대한 나의 제한된 지식으로 인해) 귀하의 질문에 직접 대답하려고하지 않았지만 그것이 도움이되기를 바랍니다. 좋은 의견과 참고에 감사드립니다-나는 논문을 찾아보고 더 나은 아이디어를 얻으려고 노력할 것입니다. 배워야 할 것이 너무 많아서 조금 압도적입니다.
Aleksandr Blekh

1
압도적이다, 나는이 주제를 한동안 선택 해준 것에 대해 나 자신을 차고 있었다! 나는 거기에 가고있는 것처럼 느낀다 – 그리고 배우는 것은 정말로 흥미 있었다. 나는해야 할 일의 대략적인 버전으로 많은 것들을 가지고 있고 실행 중이며, 이제 모델을 통해 데이터를 실행하기 전에 데이터를 처리하는 방법을 알아내는 것이 더 중요하다고 생각합니다. 내가 언급 한 최근 Keogh 논문을 읽은 이후로 시계열의 평균화에 대해 처음으로 보았으므로 자전거 공유 링크가 흥미 롭습니다.
Jo Douglass

1
@JoDouglass : "압도적"이라고 말했을 때, 전체 데이터 과학 영역 (특히 AI / ML 및 통계 포함)을 의미했습니다. 내가 찾을 아직이야 자원을 , 어떤 제시하는 높은 수준의 다양한 논의 방식 및 / 또는 방법 등의 주제 에 통합, 포괄적 인 , 아직 인색 , 프레임 워크를 .
Aleksandr Blekh

4

계절 패턴을 찾기 위해 자기 상관 관계 를 찾으려면 자기 상관 을 살펴보십시오 . 계절 패턴을 배우고 예측할 수있는 모델을 찾고 있다면 Holt-Winters 가 좋은 출발점 이 될 것이며 ARIMA 가 후속 조치를 취하는 것이 좋습니다. 여기 [pdf] 는 저를 착륙시키는 튜토리얼입니다.


이 작업은 실용적이기보다는 (현재) 학문적입니다. 나는 매우 늦게나 미래에 어떤 예측을 할 수도 있지만, 현재 과거 데이터를 탐색하는 데 더 관심이 있습니다. 클러스터링은 그 자체로 목표이며, 그 시점을 넘어서 살펴보고 싶은 아이디어도 있습니다.
Jo Douglass

죄송합니다. 조기에 Enter 키를 누르십시오. 나는 자기 상관 관계를 어느 정도 살펴 보았고 전체 데이터의 하위 세트에서 그것을 실행했지만 완전히 나올 수는 없었습니다. 데이터가 시끄 럽습니다. 계절성 패턴은 때로는 시각화에서 분명하지만 타이밍이 정확하지 않으므로 비슷한 패턴을 찾고 있지만 일정이 좋지는 않습니다. 나는 자기 상관이 그러한 데이터에서 문제가 될 수 있다고 들었지만, 가치가 있다면 또 다른 모습을 보게되어 기쁘다. 내가하고 싶지 않은 단지 계절을 찾을 수 있지만, 그것을 이해하는 것이 목표입니다.
Jo Douglass

최소한 2.5를 포함하여이 튜토리얼을 진행하십시오. 그것은 당신의 학업 환경에 특히 좋은 R을 사용합니다. 그것은 당신이 찾고있는 것과 정확히 일치하는 자동 상관 관계를 가르쳐 줄 것입니다 (보고있는 것을 알지 못했거나 데이터가 실제로 너무 시끄럽기 때문에 그것이 적합하지 않은지 알 수 없습니다). 노이즈가 문제인 경우 지수 평활은이를 지원하는 한 가지 방법이며, 이는 홀트 겨울 모델의 일부로 학습됩니다. 그 모든 것이 당신에게 답을 제공하지 않더라도, 그것은 확실히 다음 단계를 더 명확하게 만들 것입니다.
TheGrimmScientist

튜토리얼을 읽었지만 이미 알고있는 내용을 대부분 다룹니다. 나는 실제로 파이썬에서 일하고 있으며 R로 전환하기에는 너무 멀었습니다. 파이썬 라이브러리에서 찾을 수없는 것들이있는 경우를 대비하여 어떤 시점에서 rpy를 잡으려고했습니다. 나는 그것이 도움이 될 경우를 대비하여 내 질문을 다시 썼다-내가 말했듯이, 클러스터링은 그 자체로 목표이며, 완전히 다른 방향으로 가고 싶지 않다. 나는 튜토리얼이 두려워한다. t 정말 내 질문에 대답.
Jo Douglass
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.