이 사이트에서 p- 값 기반, AIC, BIC 등 모든 종류의 기준을 사용하여 단계별로 변수를 선택하는 것에 대해 믿을 수 없을 정도로 많은 게시물을 읽었습니다.
이러한 절차가 일반적으로 변수 선택에있어 왜 좋지 않은지 이해합니다. 궁의 아마 유명한 포스트는 여기에 명확하게 이유를 설명; 궁극적으로 우리는 단지 데이터 준설이라는 가설을 제시 할 때 사용했던 것과 동일한 데이터 세트에 대한 가설을 확인하고 있습니다. 또한 p- 값은 결과가 크게 왜곡되는 공선 성 및 특이 치와 같은 수량의 영향을받습니다.
그러나 나는 꽤 최근에 시계열 예측을 연구 해 왔으며 Hyndman의 존경받는 교과서를 보았습니다. 여기 에서 그는 특히 ARIMA 모델의 최적 순서를 찾기 위해 단계별 선택의 사용을 언급 합니다 . 실제로 forecast
R 의 패키지에서 auto.arima
기본적으로 알려진 잘 알려진 알고리즘 은 단계적 선택 (p- 값이 아닌 AIC 사용)을 사용합니다. 또한이 웹 사이트의 여러 게시물과 잘 일치하는 p- 값 기반 기능 선택을 비판합니다.
궁극적으로 예측 / 예측을위한 좋은 모델을 개발하는 것이 목표라면 항상 어떤 방식 으로든 교차 검증해야합니다. 그러나 p- 값 이외의 평가 지표에 대한 절차 자체와 관련하여 분명히 이것은 의견이 맞지 않습니다.
이 맥락 에서뿐만 아니라 일반적 으로이 맥락에서 단계적 AIC 사용에 대한 의견이 있습니까? 나는 모든 단계적 선택이 열악하다고 믿었지만 솔직히 말해서 auto.arima(stepwise = TRUE)
샘플 결과에서 나에게 더 나은 결과를 주었다. auto.arima(stepwise = FALSE)
그러나 이것은 단지 우연의 일치 일 것이다.