결 측값 및 / 또는 불규칙한 시계열이있는 R 예측 패키지 사용


16

R forecast패키지뿐만 아니라 zoo불규칙한 시계열 및 결 측값 보간에 대한 패키지에 깊은 인상을 받았습니다 .

내 응용 프로그램이 콜 센터 트래픽 예측 영역에 있으므로 주말의 데이터가 거의 누락되어 거의 처리 할 수 ​​있습니다 zoo. 또한 일부 불연속 점이 누락 될 수 있으므로 R을 사용 NA합니다.

건은 다음과 같은 예측 패키지의 모든 좋은 마법, eta(), auto.arima(), 등 일반 기대하는 것 ts누락 된 데이터를 포함하지 않는 객체, 즉 equispaced 시계열을. 등 간격 전용 시계열에 대한 실제 응용 프로그램은 분명히 존재하지만 내 의견으로는 매우 제한적이라고 생각합니다.

NA제공되는 보간 함수와 zoo를 사용하여 몇 가지 불연속 값 의 문제를 쉽게 해결할 수 있습니다 forecast::interp. 그 후, 나는 예측을 실행합니다.

내 질문 :

  1. 누구든지 더 나은 솔루션을 제안합니까?
  2. (내 주요 질문) 적어도 내 응용 프로그램 도메인에서 콜 센터 트래픽 예측 (및 대부분의 다른 문제 도메인을 상상할 수있는 한), 시계열은 동일하지 않습니다. 적어도 우리는 "업무 일"계획이나 다른 것을 반복했습니다. 그것을 처리하고 예측 패키지의 멋진 마법을 사용하는 가장 좋은 방법은 무엇입니까?

    주말을 채우기 위해 시계열을 "압축"하고 예측을 수행 한 다음 주말에 NA 값을 다시 삽입하기 위해 데이터를 다시 "팽창"해야합니까? (부끄러운 일 이겠지?)

    예측 패키지가 동물원 또는 그와 같은 불규칙 시계열 패키지와 완벽하게 호환되도록 할 계획이 있습니까? 그렇다면, 언제, 아니라면, 왜 그렇지 않습니까?

나는 예측 (및 통계)에 익숙하지 않아서 중요한 것을 간과 할 수 있습니다.


사이트 및 예측에 오신 것을 환영합니다! 등 간격 전용 시계열에 대한 실제 응용 프로그램은 그다지 제한 되지 않습니다 . 나는 판촉 수요를 처리하기에 충분한 제품을 보유하고있는 슈퍼마켓에 들어갈 예측에 대해 조금 알고 있으며, 수백만의 시계열 (1,000 개의 매장에서 20,000 SKU가 매우 일반적 임)이 실제로 균등하다고 생각합니다. (죄송하지만, 당신은 그것을 요구했습니다 ...) 그러나 나는 당신에게 더 도움이되는 것을 제안하려고 노력할 것입니다.
Stephan Kolassa

2
콜센터 데이터가 등거리가 아닌 이유에 대해 더 명확하게 설명해 주시겠습니까? (아마도 "동일한 간격"이라는 의미를 이해하지 못했을 것입니다.) 제가 본 콜 센터 예측 방법은 일반적으로 들어오는 호출을 15 분 간격으로 버킷 화하여 "동일한 간격"에 대한 정의를 충족시킵니다. 그런 다음 복잡한 계절성 (매일, 매주, 매년)을 처리해야합니다. stats.stackexchange.com/questions/44704/… 질문에 답변이 되었습니까? 그렇지 않다면 다른 필요한 정보를 알려주십시오.
Stephan Kolassa

5
auto.arima결 측값을 처리 할 수 ​​있습니다.
Rob Hyndman

1
모든 건설적인 의견에 감사드립니다! Stephan, 내 데이터는 두 가지 방식으로 동일하게 간격을 두지 않습니다. 1. 많은 콜센터가 토요일과 일요일에 문을 닫았습니다. 일부는 일요일에만 문을 닫습니다. 따라서 인접한 두 데이터 포인트 사이의 "정상"공간은 3 일인 금에서 월까지를 제외하고 하루입니다. 따라서 공간이 동일하지 않습니다. 즉 등거리가 아닙니다. 둘째로, 그 날 또는 그 밖의 어떤 시간에 측정 장치를 켜는 것을 잊었 기 때문에 어딘가에 무작위로 누락 된 데이터가있을 수 있습니다. 나는 그것이 내 요점을 분명히하기를 바랍니다.
기업가

1
단지 (도발적인) 생각입니다. 콜센터는 주말에 문을 닫습니다. 그런 다음 누락 된 데이터가 없습니다. 시계열은 Mo-Fr에 걸쳐 있습니다. 5 일. 꽤 등거리. 주말을 보간하는 것은 공식적으로 잘못된 것 같습니다. 왜냐하면 당신은 어떤 전화도 일어나지 않으며 당신이 묵시하는 정보는 거짓이라는 것을 알기 때문입니다. 나는 당신이 데이터를 발명함으로써 추정치를 향상시킬 수 없다고 주장 할 것입니다 ...
의미 수단

답변:


1

나는 R 전문가가 아니므로 더 간단한 방법이 있지만 전에는이 문제를 겪었습니다. 내가 한 것은 실제 날짜 사이의 거리 (시간 단위)를 측정하고 기존 시계열의 새 열에 저장하는 함수를 구현하는 것입니다. 그래서 우리는 다음과 같은 것을 가지고 있습니다 :

index/date | value | distance  
01.01.2011 |  15   |   1  
02.01.2011 |  17   |   3  
05.01.2011 |  22   |   ..   

이 방법으로 시계열이 아직 실제 일련의 시점과 연관되지 않은 경우 (또는 잘못된 형식 또는 기타) 여전히 작업 할 수 있습니다.

다음으로 다음과 같이 새로운 시계열을 생성하는 함수를 작성합니다.

먼저 시계열이 실제로 선택 날짜 사이에 몇 시간 단위로 계산할 것인지를 계산하고 동물원이나 ts 또는 빈 값을 가진 선택에 관계없이 해당 타임 라인을 만듭니다.

둘째, 불완전한 시계열 배열을 선택하고 루프를 사용하여 선택한 한도에 따라 올바른 타임 라인에 값을 채 웁니다. 단위 거리가 1이 아닌 행 (일 (단위)이 누락 됨)에 도달하면 보간 된 값을 입력합니다.

이제 이것이 함수이므로 실제로 보간 방법을 선택할 수 있습니다. 예를 들어 거리가 두 단위 미만인 경우 표준 선형 보간을 사용하기로 결정합니다. 일주일이 누락 된 경우 다른 작업을 수행하고 누락 된 날짜의 특정 임계 값에 도달하면 데이터에 대한 경고를 표시합니다.

루프가 종료 날짜에 도달하면 새 ts를 반환합니다.

이러한 기능의 장점은 간격의 길이에 따라 다른 보간 또는 처리 절차를 사용하고 원하는 형식으로 깨끗하게 시리즈를 반환 할 수 있다는 것입니다. 일단 작성된 후에는 모든 종류의 테이블 형식 데이터에서 깨끗하고 멋진 ts를 얻을 수 있습니다. 이것이 어떻게 든 도움이되기를 바랍니다.


유용한 답변에 감사드립니다. 그래서, 내가 지금하고있는 것 : 불연속 결 측값의 경우, 보간 (및 사용자 제공 "조정")을 사용하여 결측 데이터를 채 웁니다. IMA, 강화에 대한 귀하의 답변은 매우 도움이됩니다. 주말과 같이 "정기적 인"결측 데이터의 경우 예측 목적으로 데이터를 두 번째 "의사"ts로 변환 한 다음 결과를 "올바른"시계열로 다시 변환하여 예측에 결 측값이 표시되도록합니다. 주말에. 주말에 정기적 인 "갭"을 처리하는 방법에 대한 더 우아한 제안에 여전히 감사합니다.
기업가

@entreprogreur, 나는 대답하지 않았다, IMA는 대답했다. IMA는 전체 크레딧을받습니다. 방금 형식을 조정하여 멋지게 표시되도록했습니다.
gung-복직 모니카

1

추가 통계 처리 전에 보간을 적용 할 때는 매우주의해야합니다. 보간을 위해 선택하면 데이터에 편향이 생깁니다. 예측 품질을 변경할 수 있으므로 피하고 싶은 것이 분명합니다. 당신이 언급 한 것과 같은 누락 된 값, 정기적으로 시간 간격이 있고 활동의 중지에 해당하는 결 측값에 대한 필자의 견해로는 요즘 모델에서 벗어나는 것이 더 정확할 수 있습니다. 콜센터의 작은 세계 (귀하가 구축하고있는 모델)에서는 존재하지 않는 활동의 측정을 발명하는 대신 폐쇄 될 때 시간이 중지 된 것을 고려하는 것이 좋습니다. 반면 ARIMA 모델은 데이터 간격이 동일하다는 가정하에 통계적으로 구축되었습니다. 내가 아는 한 귀하의 경우에 ARIMA가 적용되지 않습니다. 실제 작업 일에 측정 값이 몇 개만 누락 된 경우 보간을 사용해야 할 수 있습니다.


0

@Remi가 지적 했듯이이 데이터에서 모델을 추정하기 전에 데이터를 보간하지 않습니다. 나쁜 생각입니다. 극단적 인 예 : 2013 년 1 월과 2014 년 1 월에 두 개의 데이터 요소가 있다고 가정합니다. 이제 2013 년 2 월에서 12 월 사이에 10 개의 월간 점을 보간하고 월별 날짜에 회귀를 실행합니다. 실제로 이것은 나쁘지는 않지만 같은 생각입니다. 통계를 최대한 팽창시킬 것입니다.

가는 방법은 누락 된 데이터를 처리하는 시계열 방법을 사용하는 것입니다. 예를 들어, 상태 공간 방법. astsa R 패키지를 살펴보십시오 . 시계열 분석에 관한 훌륭한 책이 함께 제공됩니다. 이것은 누락 된 데이터를 잘 처리합니다. Matlab은 이제 ssm 패키지 와 비슷한 기능을 수행 합니다. 모델을 상태 공간 형식으로 변환하는 방법을 배워야하지만 auto.arima"매직" 에서 벗어나려면이 방법을 배워야합니다 .

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.