보다 의미있는 것처럼 보이도록 시계열을 집계하는 것이 유효합니까?

10

나에게서 시계열에 관한 또 다른 질문.

3 년 동안 정신 병원에서 폭력 사건을 매일 기록하는 데이터 세트가 있습니다. 이전 질문의 도움으로 나는 그것을 다루었 고 지금 그것에 대해 조금 더 행복합니다.

내가 지금 가지고있는 것은 매일 시리즈가 매우 시끄럽다는 것입니다. 그것은 0에서 최대 20까지 급격히 변동합니다. 황토 플롯과 예측 패키지 (나 같은 초보자에게 강력하게 추천 할 수 있음)를 사용하면 예측에서 엄청난 신뢰 구간으로 완전히 평평한 선을 얻습니다.

그러나 매주 또는 매월 데이터를 집계하는 것이 훨씬 더 합리적입니다. 그들은 시리즈의 시작에서 아래로 휩쓸린 다음 중간에 다시 증가합니다. 황토 플로팅과 예측 패키지는 훨씬 더 의미있는 것을 만들어냅니다.

그래도 속임수처럼 느껴집니다. 나는 집계 된 버전을 선호합니까? 실제로 유효하지 않아 멋지게 보이기 때문입니까?

아니면 이동 평균을 계산하여 기준으로 사용하는 것이 더 좋을까요? 받아 들일 수있는 것이 무엇인지 확신 할 수있을만큼이 모든 이론을 이해하지 못합니다.

time-series forecasting

— 크리스 비 일리
소스

8

이것은 시계열과 발견 / 증거하려는 효과 등에 따라 달라집니다.

여기서 중요한 것은 데이터에 어떤 종류의 기간이 있는지입니다. 데이터의 스펙트럼을 만들고 데이터에서 어떤 주파수가 공통적인지 확인하십시오.

어쨌든 집계 된 값을 표시하기로 결정할 때 거짓말하지 않습니다. 더운 날씨에 여름에 더 많은 폭력과 같이 몇 주에 걸쳐 발생하는 효과를보고자하는 것이 옳은 일입니다.

Hilbert Huang Transform을 살펴볼 수도 있습니다. 이것은 시각적 분석에 매우 편리한 내장 모드 기능을 제공합니다.

— 피터 스밋
소스

12

신호 / 노이즈 비율을 높이기 위해 데이터를 집계하는 것이 매우 일반적입니다. 예를 들어 경제학의 예측 정확도에 대한 시간적 집계의 영향에 관한 논문이 몇 가지 있습니다. 일별 데이터에서 볼 수있는 것은 노이즈로 인해 약 해지는 신호 인 반면, 주별 및 월별 데이터는보다 가시적 인 신호를 보여줍니다.

시간 집계를 사용할지 여부는 전적으로 목적이 무엇인지에 달려 있습니다. 일일 사고에 대한 예측이 필요한 경우 집계가 많이 사용되지 않습니다. 발생 빈도에 대한 여러 공변량의 영향을 조사하고 모든 데이터를 매일 사용할 수 있다면 일일 데이터를 사용하여 더 큰 표본 크기를 제공하고 아마도 감지 할 수 있습니다. 더 쉽게 효과.

예측 패키지를 사용하고 있으므로 시계열 예측에 관심이있을 것입니다. 일일 예측, 주간 예측 또는 월간 예측이 필요합니까? 답변에 따라 집계가 적합한 지 여부가 결정됩니다.

— 롭 헨 드먼
소스

1

직면 한 문제 (딜레마)는 예측을 수정하기위한 최적 (또는 그렇지 않은 경우) 샘플링 간격을 선택하는 것으로 보입니다. 우선 Brown의 유명한 책의 링크 텍스트 를 참조하십시오. "데이터의 고유 한 변동성과 계획을 자주 수정하는 비용에 대해 신속하게 변경 사항을 알리지 않을 위험의 균형을 맞추기"로 요약됩니다. 매일 예측 및 동기를 부여한 의사 결정을 매일 수정할 준비가되지 않은 경우 실제로 (잡음이 많은) 일일 데이터를 사용할 필요가 없습니다. 현대의 예측 문헌에서 종종 잃어버린 중요한 점은 예측이 결정을 내리는 데 도움이 될 때만 필요하다는 것입니다.

— 겨울잠
소스