제지 공장의 성능을 예측하기 위해 RF 회귀를 사용하려고합니다.
나는 기계 (종이 생산, 기계가 끌어 낸 전력)의 성능뿐만 아니라 입력 (속도 및 목재 펄프의 양 등 ...)에 대한 분 단위 데이터를 가지고 있으며 10 분을 예측하려고합니다. 성능 변수에 앞서.
12 개월의 데이터를 얻었으므로 훈련 세트의 경우 11 개월과 테스트의 마지막 달로 11 개월로 분리했습니다.
지금까지 각 성능 변수에 대해 1 ~ 10 분씩 지연된 값을 갖는 10 개의 새로운 기능을 작성했으며 입력뿐만 아니라이를 사용하여 예측을 수행했습니다. 테스트 세트의 성능은 꽤 좋았으며 (시스템은 꽤 예측 가능합니다), 접근 방식에서 무언가가 빠질까 걱정됩니다.
예를 들어이 백서 에서 저자는 랜덤 포레스트 모델의 예측 능력을 테스트하는 방법을 설명합니다.
시뮬레이션은 새 주 데이터를 반복적으로 추가하고 업데이트 된 데이터를 기반으로 새 모델을 학습하며 다음 주에 발생할 수있는 횟수를 예측하여 진행됩니다.
이것은 시계열에서 '나중에'데이터를 테스트로 사용하는 것과 어떻게 다릅니 까? 테스트 데이터 세트뿐 아니라이 방법으로 RF 회귀 모델의 유효성을 검사해야합니까? 또한 임의의 포리스트 회귀에 대한 이런 종류의 '자동 회귀'접근 방식이 시계열에 유효하며 향후 10 분 동안 예측에 관심이있는 경우 이처럼 많은 지연된 변수를 만들어야합니까?