예측에서 휴일의 영향을 설명하는 방법


12

주간 계절성을 가진 상당히 예측 가능한 일일 시계열이 있습니다. 휴일이 없을 때 꽤 정확한 예측 (교차 유효성 확인으로 확인)을 제시 할 수 있습니다. 그러나 휴일이있을 때 다음과 같은 문제가 있습니다.

  1. 모든 역사적 공휴일이 0이지만 내 예측에 공휴일의 숫자가 0이 아닙니다. 이것은 실제로 주요한 문제는 아닙니다. 문제는 ...
  2. 공휴일에 발생하지 않는 처리는 공휴일 다음 날까지 "유출"되기 때문에 간단한 더미 변수는 단기간 혁신적 인 것처럼 보이기 때문에 변수를 자르지 않습니다. 주간 계절성이 없다면 휴일 이후 5 일 동안 휴일에 처리되지 않은 데이터를 배포 할 것으로 추정 할 수 있습니다 (휴가 의 리드 및 지연 영향을 반영하는 변수를 작성하는 방법 / 시계열 분석에서 캘린더 효과? ). 그러나, "유출"의 분배는 휴일이 발생하는 요일과 휴일이 크리스마스인지 추수 감사절인지에 따라 달라지며 주문이 연중 나머지보다 낮은 비율로 이루어집니다.

다음은 교차 검증에서 요일별로 다른 휴일에 대한 예측 (파란색) 대 실제 (빨간색) 결과를 보여주는 스냅 샷입니다.

여기에 이미지 설명을 입력하십시오

또한 크리스마스의 영향은 그 날의 요일에 달려 있으며 6 년 정도의 과거 데이터 만 있다고 걱정합니다.

예측의 맥락에서 이러한 유형의 혁신적 이상 치를 처리하는 방법에 대한 제안이 있습니까? (불행히도 데이터를 공유 할 수 없습니다)


1
나는 이것에도 관심이있다.
EngrStudent

2
데이터를 게시 할 수없는 경우 데이터 와 유사한 구성 데이터를 게시 할 수 있습니까? 대부분의 경우보다 관련성 높은 답변을 얻을 수 있습니다.

1
데이터의 규모를 조정하십시오. 모델은 동일합니다 (축척 됨). 예측을 원래 메트릭으로 다시 조정할 수도 있습니다.
Tom Reilly

답변:


1

휴일에 더미 변수를 작성하고 (휴일 +1에 대해, 휴일 +2에 대해 하나씩) 평일에 해당되는 한 변수를 1로만 설정할 수 없습니까?

추수 감사절과 크리스마스의 경우,이 휴일에 별도의 더미 변수를 도입하는 것이 최악의 옵션 인 것 같습니다 (데이터는 6 년 밖에 없기 때문에). 비록 어느 정도까지는 이것이 유일한 선택 일 수 있습니다. 사람들은 휴일과는 달리 휴일과 다르게 다르게 행동합니다. "특별한"공휴일이므로 반드시 개별적으로 분석하고 싶습니다. 그러나 아래 아이디어가 도움이 될 수 있습니다.

  • 추수 감사절. 그것이 항상 같은 요일 (목요일)에 해당한다는 사실이 더 쉬워야하지 않습니까? 즉, 주중 패턴은 항상 동일하기 때문에 추수 감사절 더미는 6 년 데이터 세트에서도 작동 할 수 있습니다.
  • 크리스마스. "크리스마스"를 크리스마스 이브 (12 월 24 일)로 정의하면 많은 사람들이 집에 머무를 것이기 때문에 주된 문제는 다른 휴일보다 효과가 더 오래 지속된다는 것입니다. 크리스마스 날 (12 월 25 일) (그리고 일부 장소에서는 심지어 복싱 날 (12 월 26 일)). 이것에 대해 좀 더 생각하겠습니다.

이게 도움이 되길 바란다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.