계절이 많은 제품에 대한 일일 판매 데이터가 있습니다. 회귀 모형의 계절성을 캡처하고 싶습니다. 분기 별 또는 월별 데이터가있는 경우 각각 3 개 및 11 개의 더미 변수를 만들 수 있지만 일일 데이터를 처리 할 수 있습니까?
3 년 간의 일일 데이터가 있습니다. 독립 변수는 가격, 판촉 플래그 (예 / 아니오) 및 온도입니다. 종속 변수는 해당 제품의 판매입니다. 다중 회귀 모델을 사용하고 있으므로 시계열 모델을 찾고 있지 않습니다.
계절이 많은 제품에 대한 일일 판매 데이터가 있습니다. 회귀 모형의 계절성을 캡처하고 싶습니다. 분기 별 또는 월별 데이터가있는 경우 각각 3 개 및 11 개의 더미 변수를 만들 수 있지만 일일 데이터를 처리 할 수 있습니까?
3 년 간의 일일 데이터가 있습니다. 독립 변수는 가격, 판촉 플래그 (예 / 아니오) 및 온도입니다. 종속 변수는 해당 제품의 판매입니다. 다중 회귀 모델을 사용하고 있으므로 시계열 모델을 찾고 있지 않습니다.
답변:
@Irishstat는 내가 말하려는 내용을 거의 다 다루었지만 시계열 회귀 및 OLS 회귀로 이러한 데이터를 모델링하는 내 개인적인 경험으로 응답 할 것입니다.
매일 데이터 인 경우 다음을 수행합니다.
계절에 따라 더미 변수를 만듭니다.
트렌드 변수에 대한 더미 변수를 만듭니다.
시계열이 선형 추세를 나타내는 경우 시간 추세 변수를 추가하십시오.
시계열이 비선형 추세를 나타내는 경우 2 차 / 입방 / 로그와 같은 비선형 시간 추세 변수를 추가하십시오.
독립 변수 추가 변수
이것은 시계열 데이터이므로 독립 품종의 납 및 지연 효과에주의를 기울여야합니다. 예를 들어, 가격 판촉 플래그를 언급하면 응답에 즉각적인 영향을 미치지 않을 수 있습니다. 즉, 지연 및 부패 / 영구적 인 영향 이있을 수 있습니다 . 예를 들어, 오늘 프로모션을 실행하면 오늘 매출이 증가 할 수 있지만 며칠 후에 프로모션의 영향이 줄어 듭니다. 다중 회귀를 사용하여이를 모델링하는 쉬운 방법은 없습니다. 파 모노 셔스 (parsimonoius)이며 모든 유형의 리드 및 래그 효과를 처리 할 수있는 전달 함수 모델링을 사용하려고합니다. 이전에 게시 한이 예를 참조하십시오 (귀하의 가격대)에 개입이 있고 급격히 증가한 다음 부패 효과가 나타납니다. 가지고 있다면리드 앤 래그 효과에 대한 사전 지식을 가지고, 가격 포인트 전후 (예 / 아니요) 프로모션 변경에 따라 더미 변수를 추가 변수로 만듭니다.
아일랜드 공휴일 표시 변수를 추가해야합니다. 예를 들어 Irishstat에 따르면 공휴일을 이동하는 부활절 / 추수 감사절 (미국)을 추가하려고합니다. 계절을 포착하기 위해 더미 코딩 체계를 사용하는 경우 정해진 날짜의 휴일이 자동으로 처리됩니다.
또한 가산 / 펄스 (일회성 이벤트) 또는 레벨 이동 (영구 이동)과 같은 이상 값을 식별하고 회귀 자로 추가해야합니다. 시계열 데이터에 대한 다중 회귀 분석에서 특이 치를 식별하는 것은 거의 불가능합니다. AUTOBOX, SPSS, SAS 또는 R 의 패키지 와 같은 소프트웨어에 통합 된 Tsay의 절차 또는 Chen 및 Liu의 절차 와 같은 시계열 이상치 탐지 방법이 필요합니다 tsoutlier
.
잠재적 인 문제 :
다음은 OLS 다중 회귀를 사용하여 시계열 데이터를 모델링 할 때 발생할 수있는 문제입니다.
그리고 다중 회귀를 사용하면 더 많은 단점이 있습니다. 예측이 더 중요하다면 6 개월 이상의 데이터를 보유하고 다중 회귀 분석의 예측 능력을 테스트합니다. 주요 목표가 독립 변수 간의 상관 관계를 설명하는 것이라면 다중 회귀를 사용하는 것이 조심스럽고 대신 ARIMAX / GLS와 같은 시계열 방식을 사용합니다.
관심이 있다면 전달 함수 및 동적 회귀 모델링에 대한 Pankratz 의 훌륭한 텍스트를 참조 할 수 있습니다. 일반적인 시계열 예측은 Makridakis 등을 참조하십시오 . 또한 Diebold 는 회귀 및 시계열 기반 예측에 대한 참조 텍스트 를 제공합니다.
당신이 필요로하는 것은 일일 효과, 주간 효과, 월간 효과, 매월 효과, 매월 효과, 휴일의 납 및 지연 효과, 지정되지 않지만 경험적으로 식별 가능한 수준 / 단계 이동을 통합하는 모델입니다. ARIMA 구조를 통합하고 시간에 따른 매개 변수 및 오류 분산의 변화를 처리하면서 현지 시간 추세, 계절별 펄스 및 펄스의 변화. 이를 전달 함수라고하며 다중 선형 회귀 분석으로 쉽게 재 구현할 수 있습니다 (그러나 유사하지는 않음).
특히 일일 지표에는 6 명의 예측 변수가 필요합니다. 일반적으로 어떤 종류의 예측 변수가 필요한지 신중하게 조정 (식별)해야합니다. 당신이 당신의 손에 많은 시간이 있다면, 당신은 내가 언급 한 구조 중 일부를 실험 할 수 있습니다. 또는 평생 문제를 해결하기 위해 고급 소프트웨어 / 컨설턴시가 필요할 수 있습니다.