시계열에서의 AIC와 교차 검증 : 작은 샘플 사례


23

시계열 설정에서 모델 선택에 관심이 있습니다. 구체적으로 지연 순서가 다른 ARMA 모델 풀에서 ARMA 모델을 선택한다고 가정합니다. 궁극적 인 의도는 예측 입니다.

모델 선택은

  1. 교차 검증,
  2. 정보 기준 (AIC, BIC) 사용

다른 방법들 중에서도

Rob J. Hyndman은 시계열에 대해 교차 검증 을 수행하는 방법을 제공합니다 . 비교적 작은 샘플의 경우, 교차 검증에 사용 된 샘플 크기는 원래 샘플 크기와 질적으로 다를 수 있습니다 . 예를 들어, 원래 표본 크기가 200 개의 관측치 인 경우 첫 번째 101 개의 관측치를 취하고 창을 102, 103, ..., 200 개의 관측치로 확장하여 100 개의 교차 검증 결과를 얻음으로써 교차 검증을 시작할 수 있습니다. 분명히, 200 개의 관측치에 대해 합리적으로 모호한 모델은 100 개의 관측치에 비해 너무 클 수 있으므로 검증 오차가 클 것입니다. 따라서 교차 검증은 체계적으로 너무 비범 한 모델을 선호 할 것입니다. 이는 표본 크기가 일치하지 않아 바람직하지 않은 효과 입니다.

교차 검증의 대안은 모델 선택에 정보 기준을 사용하는 것입니다. 예측에 관심이 있기 때문에 AIC를 사용합니다. AIC가 시계열 모델 ( Rob J. Hyndman 의이 글 에 따르면)에 대한 표본 외의 1 단계 예측 MSE를 최소화하는 것과는 무관하게 동일하지만 , 샘플 이후로 이것이 여기에 관련이 있는지 의심됩니다. 내가 관심있는 크기는 그렇게 크지 않습니다 ...

질문 : 중소 샘플에 대해 시계열 교차 검증에 대해 AIC를 선택해야합니까?

여기 , 여기여기에 몇 가지 관련 질문이 있습니다 .


1
또한 kIC가 교차 검증을 생략 할 수있는 링크를 고려할 때 BIC가 "더 긴"예측 (m-step 앞서) 과도 같다고 생각합니다. 하지만 200 번의 관측에서 큰 차이는 없을 것입니다 (2p 대신 5p의 페널티).
확률

1
@CagdasOzgenc, 나는 Rob J. Hyndman 에게 OP에 주어진 맥락에서 교차 검증이 체계적으로 너무 비범 한 모델선호 하고 확인을 얻었 는지 여부에 대해 물었 으므로 매우 고무적입니다. 채팅에서 설명하려는 아이디어가 유효한 것 같습니다.
Richard Hardy

가능성과 정보 이론으로 시작하면 통계적 특성을 잘 알고있는 메트릭을 기반으로하기 때문에 AIC 또는 BIC를 선호하는 이론적 이유가 있습니다. 그러나 종종 너무 크지 않은 데이터 세트를 처리하고 있다는 것입니다.
애널리스트

3
AIC를 이해하는 데 상당한 시간을 보냈습니다. 진술의 평등은 CLT의 버전에 해당하는 수많은 근사에 기초합니다. 나는 개인적으로 이것이 작은 샘플에 대해 AIC를 매우 의심하게 만든다고 생각합니다.
meh

1
@IsabellaGhement, 왜 그래야합니까? 이러한 특정 교차 유효성 검사 사용으로 제한 할 이유가 없습니다. 물론, 교차 검증을 모델 평가에 사용할 수는 없습니다.
Richard Hardy

답변:


2

이론적 고려 사항을 제외하고 Akaike Information Criterion은 자유도에 의해 처벌받을 가능성이 높습니다. 다음으로, AIC는 데이터의 불확실성을 설명하고 ( -2LL ), 더 많은 매개 변수는 과적 합의 위험이 더 높다고 가정합니다 ( 2k ). 교차 검증은 추가 가정없이 모델의 테스트 세트 성능 만 살펴 봅니다.

당신이 예측을 만드는 방법에 대한 대부분의 관심을 경우 당신이 테스트 세트 (들)이 실제 데이터에 합리적으로 유사 할 것이라고 가정 할 수있다, 당신은 교차 검증을 위해 가야한다. 가능한 문제는 데이터가 작을 때 데이터를 분할하면 작은 교육 및 테스트 세트로 이어진다는 것입니다. 훈련에 대한 데이터가 적고 테스트 세트에 대한 데이터가 적어지면 교차 검증 결과가 더 확실하지 않습니다 ( Varoquaux, 2018 참조 ). 테스트 샘플이 충분하지 않으면 AIC를 사용해야하지만 측정 대상과 가정 할 수있는 사항을 염두에 두어야합니다.

반면에 이미 언급했듯이 AIC는 무증상 보장을 제공하며 작은 샘플의 경우에는 해당되지 않습니다. 작은 표본도 데이터의 불확실성에 대해 오도 할 수 있습니다.


답변 주셔서 감사합니다! 데이터의 시계열 특성으로 인해 교차 검증에서 훨씬 작은 표본 크기가 바람직하지 않은 영향에 대해 구체적으로 언급하고 있습니까?
Richard Hardy

1

흠-당신의 궁극적 인 목표가 예측하는 것이라면, 왜 모델 선택을하려고합니까? 내가 아는 한, 그것은 "전통적인"통계 문헌과 모델 평균화 가 예측에있어 우수하다는 기계 학습 문헌에 잘 확립되어 있습니다. 간단히 말해서, 모델 평균화는 모든 타당한 모델을 추정하고 상대 모델 증거로 가중치를 적용하여 예측을 예측하고 평균화하도록합니다.

시작에 유용한 참조는 https://journals.sagepub.com/doi/10.1177/0049124104268644

그들은 이것을 간단하게 설명하고 관련 문헌을 참조합니다.

이것이 도움이되기를 바랍니다.


-1

내 생각은 둘 다하고 참조하십시오. AIC를 사용하는 것이 직접적입니다. AIC가 작을수록 모델이 더 좋습니다. 그러나 AIC에 의존 할 수 없으며 그러한 모델이 최고라고 말합니다. 따라서 ARIMA 모델 풀이있는 경우 각각을 가져 와서 기존 값 예측을 확인하고 기존 시계열 데이터에 가장 가까운 모델을 예측하는 모델을 확인하십시오. 둘째, AIC도 확인하고 둘 다 고려하면 좋은 선택이 될 것입니다. 단단하고 빠른 규칙은 없습니다. 최고를 예측하는 모델로 가십시오.


답변 주셔서 감사합니다! 다른 모델 선택 방법 중에서 선택하는 원칙적인 방법을 찾고 있습니다. 딱딱하고 빠른 규칙이 없다는 것이 옳지 만 , 실제 상황에서 우리를 돕기 위해 가상의 이상적인 조건 하에서 명확한 지침이 필요합니다. 따라서 일반적으로 귀하의 관점에 동의하지만 귀하의 답변이 특별히 도움이되지는 않습니다.
Richard Hardy
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.