시계열 데이터를 기차 / 테스트 / 검증 세트로 분할


12

시계열 데이터를 기차 / 테스트 / 검증 세트로 분할하는 가장 좋은 방법은 무엇입니까? 여기서 유효성 검사 세트는 하이퍼 파라미터 튜닝에 사용됩니까?

우리는 3 년 분량의 일일 판매 데이터를 보유하고 있으며, 2015-2016 년을 교육 데이터로 사용한 다음 2017 년 데이터에서 10 주를 무작위로 샘플링하여 유효성 검사 세트로 사용하고 2017 년 데이터에서 10 주를 더 사용합니다. 테스트 세트. 그런 다음 테스트 및 유효성 검사 세트의 각 요일에 대해 살펴 보겠습니다.

답변:


8

미리보기 편향을 피하려면 시간을 기준으로 분할을 사용해야합니다. 시간순으로이 순서대로 학습 / 검증 / 테스트합니다.

테스트 세트는 데이터의 최신 부분이어야합니다. 프로덕션 환경에서 상황을 시뮬레이션해야합니다. 여기서는 모델을 학습 한 후 모델을 만든 후 데이터를 평가합니다. 따라서 검증 및 교육에 사용하는 무작위 샘플링은 좋지 않습니다.


5

교육 / 검증 / 테스트 / 예측을 위해 시계열 데이터를 활용하는 가장 완벽한 방법은 다음과 같습니다.

여기에 이미지 설명을 입력하십시오

사진은 설명이 필요합니까? 그렇지 않은 경우 의견을 말하면 더 많은 텍스트를 추가 할 것입니다 ...


3

하나의 훈련 / 검증 세트 만 만드는 대신 이러한 세트를 더 만들 수 있습니다.

첫 번째 훈련 세트는 6 개월 데이터 (2015 년 첫 학기) 일 수 있으며, 검증 세트는 다음 3 개월 (2015 년 7 월 -8 월)이됩니다. 두 번째 훈련 세트는 첫 훈련과 검증 세트의 조합입니다. 검증 세트는 다음 3 개월입니다 (2015 년 9 월 -10 월). 등등.

이것은 훈련 세트가 이전 훈련 및 검증 세트의 조합 인 K-Fold 교차 검증의 변형입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.