시계열의 예측 성 평가


11

1 월 5 일에서 12 월 11 일까지 20.000 개가 넘는 월별 시계열이 있다고 가정합니다. 이들 각각은 다른 제품에 대한 글로벌 판매 데이터를 나타냅니다. 각각의 예측을 계산하는 대신 "실제로 중요한"소수의 제품에만 집중하고 싶을 경우 어떻게해야합니까?

나는 총 연간 수입으로 해당 제품의 순위를 매기고 고전적인 파레토를 사용하여 목록을 정리할 수 있습니다. 그럼에도 불구하고, 비록 그들이 수익에 크게 기여하지는 않지만 일부 제품은 예측하기가 너무 쉽지 않아 제품을 내버려두면 나쁜 판단을 내릴 수 있습니다. 지난 10 년 동안 매달 50 달러 가치의 제품을 판매 한 제품은 그다지 들리지 않을지 모르지만 앞으로 나올 판매에 대한 예측을 생성하는 데에는 노력이 거의 필요하지 않습니다.

따라서 제품을 고수익 / 예측 용이성-저수익 / 예측 용이성-고수익 / 예측 어려움-저수익 / 예측 어려움이라는 네 가지 범주로 나눕니다.

네 번째 그룹에 속한 시계열 만 남겨 두는 것이 합리적이라고 생각합니다. 그러나 "예측 가능성"을 정확히 어떻게 평가할 수 있습니까?

변동 계수는 좋은 출발점처럼 보입니다 (또한 얼마 전에 그것에 관한 논문을 보았던 것을 기억합니다). 그러나 시계열이 계절성 / 레벨 변화 / 달력 효과 / 강조 추세를 나타내는 경우 어떻게해야합니까?

"원시"데이터가 아닌 임의의 구성 요소의 변동성에 대해서만 평가를 수행해야한다고 생각합니다. 아니면 뭔가 빠졌습니까?

이전에 비슷한 문제에 처한 사람이 있습니까? 당신은 어떻게 그것에 대해 갈 것입니까?

언제나 그렇듯이 도움을 주시면 감사하겠습니다!

답변:


9

다음은 stl을 기반으로 한 두 번째 아이디어입니다.

각 계열에 stl 분해를 적용한 다음 나머지 구성 요소의 표준 오차를 부분 연도를 무시한 원래 데이터의 평균과 비교할 수 있습니다. 예측하기 쉬운 계열은 se (remainder) 대 평균 (data)의 비율이 적어야합니다.

부분 연도를 무시할 것을 제안하는 이유는 계절성이 데이터의 평균에 영향을 미치기 때문입니다. 문제의 예에서 모든 시리즈는 7 년의 완전한 연도를 가지므로 문제가되지 않습니다. 그러나 시리즈가 2012 년까지 연장 된 경우 계절의 평균 오염을 피하기 위해 평균은 2011 년 말까지만 계산하는 것이 좋습니다.

이 아이디어는 평균 (데이터)이 의미가 있다고 가정합니다. 즉, 데이터는 평균 성 (계절성 제외)임을 의미합니다. 강력한 추세 또는 단위 루트를 가진 데이터에는 적합하지 않을 수 있습니다.

또한 좋은 stl fit은 좋은 예측으로 해석된다고 가정하지만 그것이 사실이 아닌 예를 생각할 수 없으므로 아마도 괜찮은 가정 일 것입니다.


안녕 롭, 돌아 와줘서 고마워 나는 당신이 아이디어를 좋아하므로 시도해보고 원하는 수준의 필터링을 제공하는지 확인하십시오. 한가지 더, 평균 (나머지)보다 평균 (데이터)을 사용해야하는 특별한 이유가 있습니까? 내 시계열 중 일부가 다소 강한 경향이 있을까 걱정됩니다. STL 분해 시리즈는 대신해서는 안됩니다. 또한 예측 성 / 점검 특이 치를 평가하기 위해 지금까지 설명한 접근법이 실제 비즈니스 환경에서 구현하기에 충분하다고 생각하십니까? 아니면 너무 "아마추어"입니까? 일반적으로 일을 크게 다르게 하시겠습니까?
Bruder

평균 (나머지)은 0에 가깝습니다. 노이즈를 데이터의 스케일과 비교하려고하므로 평균 (데이터)이 양호해야합니다. 트렌드를 다루는 방법을 잘 모르겠습니다. 결과를 믿기 전에 다양한 데이터에 대해 신중하게 접근 방식을 테스트했습니다.
Rob Hyndman

8

이것은 예측에서 상당히 일반적인 문제입니다. 기존 솔루션은 각 항목의 평균 절대 백분율 오류 (MAPE)를 계산하는 것입니다. MAPE가 낮을수록 항목을보다 쉽게 ​​예측할 수 있습니다.

그것의 하나의 문제는 많은 계열이 0 값을 포함하고 MAPE는 정의되지 않는다는 것입니다.

Hyndman and Koehler (IJF 2006) [Preprint version]에서 MASE (Mean Absolute Scaled Error)를 사용 하는 솔루션을 제안했습니다 . 월별 시계열의 경우 스케일링은 샘플 내 계절 순진한 예측을 기반으로합니다. 즉, 와이 가 시간 에서 관측 값 인 경우 데이터는 시간 1에서 까지 이용 가능 하며

=112=13|와이와이12|,
다음, 스케일링 된 에러는=(와이와이^)/, Y t는의 예측이다Yt해당 항목에 대한 구현하는 어떤 예측 방법을 이용하여. MASE를 얻으려면 스케일링 된 오류의 평균 절대 값을 사용하십시오. 예를 들어 롤링 원점 (일명시계열 교차 유효성 검사)을사용할 수 있습니다.와이^와이) 결과 1 단계 (또는 h 단계) 오류 의 평균 절대 값을 가져옵니다 .

예측하기 쉬운 계열은 MASE 값이 낮아야합니다. 여기서 "예측하기 쉬운"은 계절 순진한 예측과 관련하여 해석됩니다. 경우에 따라 결과를 스케일링하기 위해 대체 기본 측정을 ​​사용하는 것이 더 합리적 일 수 있습니다.


안녕하세요 Rob, 친절한 답변 감사합니다. 항상 그렇듯이 접근 방식은 매우 깔끔하고 간단하며 합리적입니다. 나는 계절 순진 모델에 대해 이미 추가 된 예측 값 ( FTV )을 평가하므로 동일한 "기본 측정"을 사용하여 예측 가능성을 평가하려는 아이디어는 매우 매력적입니다. 유일한 문제는 MASE를 계산하기 위해 예측 방법을 선택하고 각 20000 시계열에 대해 시뮬레이션을 실행해야한다는 것입니다. 미리 예측하기 쉬운 시리즈를 미리 찾아서 계산 시간을 절약 할 수 있기를 바랐습니다.
Bruder

어떤 이유로 나는 상대적 변동성이 낮은 시계열 (예 : CV)이 필연적으로 쉽고 정확한 예측을 가져올 것이라고 생각했습니다. 예측을 계산 한 다음 오류를 측정하는 것만으로도 내 지갑을 무시합니다. 내가 말하려는 것은 MASE를 예측 가능성보다 측정 정확도의 척도로 보는 것입니다. 그러나 나는 틀릴 수도있다 ... :)
Bruder

1
@Bruder : 2 생각 : 1. 계절 예측보다는 단순한 순진한 예측을 볼 수 있습니다. 단순한 순진한 예측은 시계열의 이전 값만 사용하며 1주기 지연으로 강한 추세를 선택합니다. 2. STL 분해는 좋은 생각입니다. 계절 및 추세 성분에 비해 잔차가 매우 작 으면 계열을 쉽게 예측할 수 있습니다.
Zach

1
@Rob-STL 분해는 어떻습니까? 하나의 돌로 두 마리의 새를 얻을 수 있습니까 (즉, 특이 치를 발견하고 예측 성을 평가하여 "진정한"예측 성을 평가할 수 있습니까)? STL과 계절 순진한 모델로 얼마나 많은 일을 할 수 있는지 놀랍습니다. 그러나 당신은 상황이 너무 좋을 때 어떤 일이 발생하는지 알고 있습니다 ...
Bruder

1
나는

5

Ω(엑스)

그러나 Rob이 제안한 MASE 측정 값을 사용하여 여러 하위 그룹에서 20,000 개를 대략적으로 그리드 분리 한 다음 ForeCA를 개별적으로 적용 할 수 있습니다.


0

이 답변은 매우 늦었지만 여전히 제품 수요 시계열에 대한 적절한 예측 가능성을 찾고있는 사람들에게는 대략적인 엔트로피를 살펴볼 것을 적극 권장 합니다 .

시계열에 반복적 인 변동 패턴이 있으면 그러한 패턴이없는 시계열보다 더 예측 가능합니다. ApEn은 유사한 관측 패턴이 추가로 유사한 관측을하지 않을 가능성을 반영합니다. [7] 많은 반복 패턴을 포함하는 시계열은 ApEn이 상대적으로 작습니다. 예측하기 어려운 프로세스는 ApEn이 더 높습니다.

제품 수요는 계절 성분이 매우 강하기 때문에 변동 계수 (CV)가 부적절합니다. ApEn (m, r)이이를 올바르게 처리 할 수 ​​있습니다. 필자의 경우 데이터는 주간 계절성이 강하기 때문에 여기에 권장되는대로 매개 변수 m = 7 및 r = 0.2 * std를 설정 했습니다 .



당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.