기계 학습을위한 시계열의 순서


14

교차 검증 및 시계열에 대한 RJ Hyndman 의 "연구 팁"중 하나를 읽은 후 여기에서 공식화하려고하는 오래된 질문으로 돌아 왔습니다. 분류 또는 회귀 문제에서 데이터의 순서는 중요하지 않으므로 k 배 교차 검증을 사용할 수 있습니다. 반면 시계열에서 데이터 순서는 매우 중요합니다.

그러나 기계 학습 모델을 사용하여 시계열을 예측할 때 일반적인 전략은 시리즈 를 시간 대해 "입력-출력 벡터"세트 로 재구성하는 것입니다. 폼 .{와이1,...,와이}(와이+1,...,와이1,와이;와이+1)

이제이 재구성이 완료되면 "입력-출력 벡터"의 결과 집합을 주문할 필요가 없다고 생각할 수 있습니까? 예를 들어 이러한 데이터를 "학습"하기 위해 n 개의 입력을 가진 피드 포워드 신경망을 사용하면 벡터를 모델에 표시하는 순서에 관계없이 동일한 결과에 도달합니다. 따라서 매번 모델을 다시 피팅 할 필요없이 k- 폴드 교차 검증을 표준 방식으로 사용할 수 있습니까?

답변:


2

이 질문에 대한 답변은 모델 순서가 올바르게 지정되어 있으면 모델의 오류가 독립적이므로 올바르게 작동한다는 것입니다.

이 논문 여기에 모델이있는 경우 가난한 교차 유효성 검사가 실제로 얼마나 가난한 과소 평가 것이라는 점을 보여줍니다. 다른 모든 경우에 교차 유효성 검사는 특히 시계열 컨텍스트에서 일반적으로 사용되는 샘플 외부 평가보다 우수한 작업을 수행합니다.


6

재미있는 질문!

설명하는 접근법은 시계열 데이터를 분석하기 위해 속성의 고정 길이 피처 벡터가 필요한 표준 ML 방법을 사용하는 사람들에게 매우 널리 사용됩니다.

연결되는 게시물에서 Hyndman은 재구성 된 데이터 벡터 (샘플)간에 상관 관계가 있음을 지적합니다. k-CV (또는 무작위로 데이터를 학습 및 테스트 세트로 나누는 다른 평가 방법)에서 모든 샘플이 독립적이라고 가정하기 때문에 이는 문제가 될 수 있습니다. 그러나이 우려가 속성을 개별적으로 처리하는 표준 ML 방법의 경우와 관련이 있다고 생각하지 않습니다.

=

:(와이1,와이2,와이;와이4):(와이2,와이,와이4;와이5):(와이,와이4,와이5;와이6)

분명히 A와 B는 다음과 같은 용어를 가지고 있습니다. 와이2공통적으로. 그러나 A의 경우 이것은 두 번째 속성의 값이고 B의 경우는 첫 번째 속성의 값입니다.


1
일부 ML 알고리즘은 속성이 완전히 별개로 취급되기 때문에 상관 관계가 높은 샘플의 문제에 영향을받지 않을 수 있음에 동의합니다. 그러나 이러한 알고리즘은 시계열 작업에도 좋지 않습니다. 시계열에 유망한 ML 알고리즘은 속성 # 1과 속성 # 2가 실제로 비슷하다는 것을 알 수 있어야합니다. 그렇지 않으면 예측이 나빠질 것입니다. 1). 이러한 알고리즘은 Hyndman이 언급 한 문제로 인해 어려움을 겪을 것입니다.
최대
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.