일일 데이터에 대한 다중 회귀 분석에서 계절성 캡처


13

계절이 많은 제품에 대한 일일 판매 데이터가 있습니다. 회귀 모형의 계절성을 캡처하고 싶습니다. 분기 별 또는 월별 데이터가있는 경우 각각 3 개 및 11 개의 더미 변수를 만들 수 있지만 일일 데이터를 처리 할 수 ​​있습니까?

3 년 간의 일일 데이터가 있습니다. 독립 변수는 가격, 판촉 플래그 (예 / 아니오) 및 온도입니다. 종속 변수는 해당 제품의 판매입니다. 다중 회귀 모델을 사용하고 있으므로 시계열 모델을 찾고 있지 않습니다.


당신은 얼마나 많은 데이터를 가지고 있습니까? 몇 년 가치가 있습니까? 온도와 같은 데이터가 있습니까? 나머지 모델은 어떻습니까? DV와 IV는 무엇입니까?
Peter Flom-Monica Monica 복원

Peter Flom이 요청한 것 외에도 데이터를 일 변량 시계열 또는 다변량 시계열로 모델링하고 있습니까? 다변량 인 경우 다른 변수가 있습니까? 그 변수가 계절 행동을 나타내는가? 따라서 더미 변수를 추가 할 필요가 없습니다. 이러한 추가 정보를 제공 할 수 있습니까?
예측 자

내 질문을 편집했습니다. 해결책을 제공해 주시겠습니까? 감사합니다
Arushi


@IrishStat에 전적으로 동의합니다. 여러 계절성을 캡처하는 아주 좋은 모델 인 시계열 모델을 무시하지는 않을 것입니다. 여러 계절성을 처리 할 수있는 지수 평활화 상태 공간 모델을 확인할 수 있습니다. R. 독점적으로 트렌드 (예 : 패키지)를 사용할 수 있습니다.
Karthi V

답변:


10

@Irishstat는 내가 말하려는 내용을 거의 다 다루었지만 시계열 회귀 및 OLS 회귀로 이러한 데이터를 모델링하는 내 개인적인 경험으로 응답 할 것입니다.

매일 데이터 인 경우 다음을 수행합니다.

계절에 따라 더미 변수를 만듭니다.

  • 요일 계절성을 캡처하려면 6 개의 더미 변수를 작성하십시오.
  • 월의 계절성을 캡처하려면 30 개의 더미 변수를 작성하십시오.
  • 한 달의 달을 포착하려면 11 개의 더미 변수를 만듭니다.

트렌드 변수에 대한 더미 변수를 만듭니다.

  • 시계열이 선형 추세를 나타내는 경우 시간 추세 변수를 추가하십시오.

  • 시계열이 비선형 추세를 나타내는 경우 2 차 / 입방 / 로그와 같은 비선형 시간 추세 변수를 추가하십시오.

독립 변수 추가 변수

  • 이것은 시계열 데이터이므로 독립 품종의 납 및 지연 효과에주의를 기울여야합니다. 예를 들어, 가격 판촉 플래그를 언급하면 ​​응답에 즉각적인 영향을 미치지 않을 수 있습니다. 즉, 지연 및 부패 / 영구적 인 영향 이있을 수 있습니다 . 예를 들어, 오늘 프로모션을 실행하면 오늘 매출이 증가 할 수 있지만 며칠 후에 프로모션의 영향이 줄어 듭니다. 다중 회귀를 사용하여이를 모델링하는 쉬운 방법은 없습니다. 파 모노 셔스 (parsimonoius)이며 모든 유형의 리드 및 래그 효과를 처리 할 수있는 전달 함수 모델링을 사용하려고합니다. 이전에 게시 한이 예를 참조하십시오 (귀하의 가격대)에 개입이 있고 급격히 증가한 다음 부패 효과가 나타납니다. 가지고 있다면리드 앤 래그 효과에 대한 사전 지식을 가지고, 가격 포인트 전후 (예 / 아니요) 프로모션 변경에 따라 더미 변수를 추가 변수로 만듭니다.

  • 아일랜드 공휴일 표시 변수를 추가해야합니다. 예를 들어 Irishstat에 따르면 공휴일을 이동하는 부활절 / 추수 감사절 (미국)을 추가하려고합니다. 계절을 포착하기 위해 더미 코딩 체계를 사용하는 경우 정해진 날짜의 휴일이 자동으로 처리됩니다.

  • 또한 가산 / 펄스 (일회성 이벤트) 또는 레벨 이동 (영구 이동)과 같은 이상 값을 식별하고 회귀 자로 추가해야합니다. 시계열 데이터에 대한 다중 회귀 분석에서 특이 치를 식별하는 것은 거의 불가능합니다. AUTOBOX, SPSS, SAS 또는 R 의 패키지 와 같은 소프트웨어에 통합 된 Tsay의 절차 또는 Chen 및 Liu의 절차 같은 시계열 이상치 탐지 방법이 필요합니다 tsoutlier.

잠재적 인 문제 :

다음은 OLS 다중 회귀를 사용하여 시계열 데이터를 모델링 할 때 발생할 수있는 문제입니다.

  • 오류는 자동 상관 관계가있을 수 있습니다. 이 멋진의 참조 웹 사이트에웹 사이트에 이 문제를 설명합니다. 이를 피하는 한 가지 방법은 일반 상관 최소 제곱 (GLS) 또는 ARIMAX 접근 방식 대 OLS 다중 회귀를 사용하여 자동 상관을 수정할 수있는 방법입니다.
  • OLS 모델은 parsimonoius가 아닙니다. 당신은 계절성 더미 변수.6+30+11=47
  • 더미 변수를 사용하면 계절성이 결정적이라고 가정합니다. 즉 시간이 지나도 변하지 않습니다. 3 년의 데이터 만 가지고 있기 때문에 걱정할 필요가 없지만 시리즈를 구성하고 계절성이 변하지 않는지 확인하는 것이 좋습니다.

그리고 다중 회귀를 사용하면 더 많은 단점이 있습니다. 예측이 더 중요하다면 6 개월 이상의 데이터를 보유하고 다중 회귀 분석의 예측 능력을 테스트합니다. 주요 목표가 독립 변수 간의 상관 관계를 설명하는 것이라면 다중 회귀를 사용하는 것이 조심스럽고 대신 ARIMAX / GLS와 같은 시계열 방식을 사용합니다.

관심이 있다면 전달 함수 및 동적 회귀 모델링에 대한 Pankratz 의 훌륭한 텍스트를 참조 할 수 있습니다. 일반적인 시계열 예측은 Makridakis 등을 참조하십시오 . 또한 Diebold 는 회귀 및 시계열 기반 예측에 대한 참조 텍스트 를 제공합니다.


아주 좋은 요약 그러나 나는 매우 중요한 것으로 밝혀진 주말 효과 외에도 특정 월별 및 특정 월별 효과를 무시했다고 덧붙이고 싶습니다. 또한 이벤트 전 및 이벤트 후 효과는 무시되지 않습니다. 부활절 및 기타 주요 공휴일 / 이벤트와 관련된 활동을 고려하십시오. 종종 LEAD 사양을 통합해야하는 개별 응답 패턴이 있습니다. 또한 매개 변수는 시간이 지남에 따라 변경 될 수 있으며 종종 매개 변수의 불변성을 가정해야합니다.
IrishStat

감사합니다 @Irishstat. 네 말이 맞아 나는 휴일 휴일과 그들의 리드 앤 랙 효과를 잊어 버렸습니다.
예측 자

2

당신이 필요로하는 것은 일일 효과, 주간 효과, 월간 효과, 매월 효과, 매월 효과, 휴일의 납 및 지연 효과, 지정되지 않지만 경험적으로 식별 가능한 수준 / 단계 이동을 통합하는 모델입니다. ARIMA 구조를 통합하고 시간에 따른 매개 변수 및 오류 분산의 변화를 처리하면서 현지 시간 추세, 계절별 펄스 및 펄스의 변화. 이를 전달 함수라고하며 다중 선형 회귀 분석으로 쉽게 재 구현할 수 있습니다 (그러나 유사하지는 않음).

특히 일일 지표에는 6 명의 예측 변수가 필요합니다. 일반적으로 어떤 종류의 예측 변수가 필요한지 신중하게 조정 (식별)해야합니다. 당신이 당신의 손에 많은 시간이 있다면, 당신은 내가 언급 한 구조 중 일부를 실험 할 수 있습니다. 또는 평생 문제를 해결하기 위해 고급 소프트웨어 / 컨설턴시가 필요할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.