시계열 예측을위한 랜덤 포레스트 회귀


10

제지 공장의 성능을 예측하기 위해 RF 회귀를 사용하려고합니다.

나는 기계 (종이 생산, 기계가 끌어 낸 전력)의 성능뿐만 아니라 입력 (속도 및 목재 펄프의 양 등 ...)에 대한 분 단위 데이터를 가지고 있으며 10 분을 예측하려고합니다. 성능 변수에 앞서.

12 개월의 데이터를 얻었으므로 훈련 세트의 경우 11 개월과 테스트의 마지막 달로 11 개월로 분리했습니다.

지금까지 각 성능 변수에 대해 1 ~ 10 분씩 지연된 값을 갖는 10 개의 새로운 기능을 작성했으며 입력뿐만 아니라이를 사용하여 예측을 수행했습니다. 테스트 세트의 성능은 꽤 좋았으며 (시스템은 꽤 예측 가능합니다), 접근 방식에서 무언가가 빠질까 걱정됩니다.

예를 들어이 백서 에서 저자는 랜덤 포레스트 모델의 예측 능력을 테스트하는 방법을 설명합니다.

시뮬레이션은 새 주 데이터를 반복적으로 추가하고 업데이트 된 데이터를 기반으로 새 모델을 학습하며 다음 주에 발생할 수있는 횟수를 예측하여 진행됩니다.

이것은 시계열에서 '나중에'데이터를 테스트로 사용하는 것과 어떻게 다릅니 까? 테스트 데이터 세트뿐 아니라이 방법으로 RF 회귀 모델의 유효성을 검사해야합니까? 또한 임의의 포리스트 회귀에 대한 이런 종류의 '자동 회귀'접근 방식이 시계열에 유효하며 향후 10 분 동안 예측에 관심이있는 경우 이처럼 많은 지연된 변수를 만들어야합니까?


2
RF는 일시적인 고려 사항을 위해 설계되지 않았으며 명시 적으로 통합하지 않습니다. 그렇다면 왜이 분석에 전혀 사용하지 않습니까? 거기에는 많은 시계열 방법론이 있습니다. 하나를 선택.
Mike Hunter

2
@DJohnson 나는 논문의 접근법을 모방하려고 시도한다고 생각했다. RF를 시도하고 그것을 ARIMA와 비교한다. 이 시간이 가치가 없으며 ARIMA를 활용할 것을 제안하고 있습니까?
KRS-fun

4
@DJohnson, 자기 회귀 모형의 역학은 단면 회귀 모형의 역학과 매우 비슷합니다. 지연된 기능이 구성되면 단면 설정 에서처럼 RF를 사용하지 않는 이유는 무엇입니까? 나는 그들을 시험해 보는 것이 공평하다고 생각한다. 그러나 다른 방법이 시계열에서 더 인기가 있고 OP도 해당 방법을 탐색하면 도움이 될 수 있습니다.
Richard Hardy

1
제 생각에는 RF는 모든 것이 못이되는 망치와 같습니다. OP에 설명 된 데이터를 사용하면 ARIMA가 아닌 패널 데이터 또는 풀링 모델이 가장 먼저 선택됩니다.
Mike Hunter

5
나는 지금 이것을 발견하고 며칠 전에 언급 된 논문을 읽었습니다. 다변량 시계열 예측을 위해 임의 포리스트와 LSTM을 비교하고 있습니다. 흥미롭게도 LSTM은 훈련 데이터에 더 적은 시간을 포함시킬 때 더 잘 작동하지만, 더 많은 데이터를 추가할수록 두 방법의 결과가 실제 결과로 수렴됩니다. 나는 이것이 기능이 시간적 구성 요소를 극복하기에 충분한 정보를 제공하기 때문이라고 생각합니다. 어쨌든 재미 있다고 생각했습니다. 또한, 나는 분명한 계절적 경우를 제외하고는 ARIMA가 제대로 작동하는 것을 본 적이 없으며 다변량 ARIMA는 ...
Hobbes

답변:


6

이것은 시계열에서 '나중에'데이터를 테스트로 사용하는 것과 어떻게 다릅니 까?

인용 한 접근 방식을 "롤링 원점"예측이라고합니다. 예측 한 원점이 "롤 포워드"되고 교육 데이터가 새로 사용 가능한 정보로 업데이트됩니다. 더 간단한 접근 방식은 "단일 원점 예측"이며, 여기서 단일 원점을 선택합니다.

롤링 원점 예측의 장점은 시간이 지남에 따라 예측 시스템 시뮬레이션한다는 것 입니다. 단일 원점 예측에서는 우연히 시스템이 잘 작동하는 (또는 매우 나쁘게) 원점을 선택하여 시스템 성능에 대한 잘못된 아이디어를 제공 할 수 있습니다.

롤링 원점 예측의 한 가지 단점은 높은 데이터 요구 사항입니다. 최소 50 개의 과거 관측치로 10 단계를 예측하려면 전체 60 개 데이터 포인트로이 단일 출처를 수행 할 수 있습니다. 그러나 10 개의 중첩 롤링 원점을 원하면 70 개의 데이터 포인트가 필요합니다.

다른 단점은 물론 복잡성이 높다는 것입니다.

말할 필요도없이 롤링 원점 예측에 "나중"데이터를 사용하지 말고 각 반복에서 사용하는 원점 이전의 데이터 만 사용해야합니다.

테스트 데이터 세트뿐 아니라이 방법으로 RF 회귀 모델의 유효성을 검사해야합니까?

충분한 데이터가있는 경우 롤링 원점 평가는 원점의 영향을 평균화하기 때문에 단일 원점 평가보다 항상 더 많은 신뢰를 얻습니다.

또한 임의의 포리스트 회귀에 대한 이런 종류의 '자동 회귀'접근 방식이 시계열에 유효하며 향후 10 분 동안 예측에 관심이있는 경우 이처럼 많은 지연된 변수를 만들어야합니까?

예, 롤링 대 단일 원점 예측은 모든 예측 운동에 유효합니다 . 임의의 포리스트를 사용하는지 아니면 ARIMA 또는 다른 것을 사용하는지에 의존하지 않습니다.

지연된 변수가 필요한지 여부는 상담 할 수 없습니다. 다른 의견을 제안 할 수도있는 주제 전문가와 상담하는 것이 가장 좋습니다. 지연된 입력과없는 입력으로 RF를 시험해보십시오. 또한 ARIMA 또는 ETS와 같은 표준 벤치 마크 또는 더 간단한 방법도 비교할 수 있습니다 .

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.