Stepwise AIC-이 주제와 관련하여 논란이 있습니까?


17

이 사이트에서 p- 값 기반, AIC, BIC 등 모든 종류의 기준을 사용하여 단계별로 변수를 선택하는 것에 대해 믿을 수 없을 정도로 많은 게시물을 읽었습니다.

이러한 절차가 일반적으로 변수 선택에있어 왜 좋지 않은지 이해합니다. 궁의 아마 유명한 포스트는 여기에 명확하게 이유를 설명; 궁극적으로 우리는 단지 데이터 준설이라는 가설을 제시 할 때 사용했던 것과 동일한 데이터 세트에 대한 가설을 확인하고 있습니다. 또한 p- 값은 결과가 크게 왜곡되는 공선 성 및 특이 치와 같은 수량의 영향을받습니다.

그러나 나는 꽤 최근에 시계열 예측을 연구 해 왔으며 Hyndman의 존경받는 교과서를 보았습니다. 여기 에서 그는 특히 ARIMA 모델의 최적 순서를 찾기 위해 단계별 선택의 사용을 언급 합니다 . 실제로 forecastR 의 패키지에서 auto.arima기본적으로 알려진 잘 알려진 알고리즘 은 단계적 선택 (p- 값이 아닌 AIC 사용)을 사용합니다. 또한이 웹 사이트의 여러 게시물과 잘 일치하는 p- 값 기반 기능 선택을 비판합니다.

궁극적으로 예측 / 예측을위한 좋은 모델을 개발하는 것이 목표라면 항상 어떤 방식 으로든 교차 검증해야합니다. 그러나 p- 값 이외의 평가 지표에 대한 절차 자체와 관련하여 분명히 이것은 의견이 맞지 않습니다.

이 맥락 에서뿐만 아니라 일반적 으로이 맥락에서 단계적 AIC 사용에 대한 의견이 있습니까? 나는 모든 단계적 선택이 열악하다고 믿었지만 솔직히 말해서 auto.arima(stepwise = TRUE)샘플 결과에서 나에게 더 나은 결과를 주었다. auto.arima(stepwise = FALSE)그러나 이것은 단지 우연의 일치 일 것이다.


예측자가 동의 할 수있는 몇 가지 사항 중 하나는 하나의 "최상의"모델을 선택하면 일반적으로 여러 모델을 결합하는 것보다 효과가 떨어진다는 것입니다.
S. Kolassa-복원 모니카

답변:


20

여기에는 몇 가지 다른 문제가 있습니다.

  • 아마도 주요 문제는 모델 선택 (p- 값 또는 AIC, 단계적 또는 모든 부분 집합 또는 다른 것을 사용하든)이 주로 추론에 문제가 있다는 것입니다 (예 : 적절한 유형 I 오류의 p- 값 얻기, 적절한 범위의 신뢰 구간). 예측을 위해 모델 선택은 실제로 바이어스-분산 트레이드 오프 축에서 더 나은 지점을 선택하고 샘플 외부 오차를 개선 할 수 있습니다.
  • 일부 모델 클래스의 경우 AIC는 무조건 CV 오류 남겨두기 (예 : http://www.petrkeil.com/?p=836 참조 )와 동일하므로 CIC에 대한 계산 효율적인 프록시로 AIC를 사용하는 것이 합리적입니다.
  • 단계적 선택은 종종 다른 모델 선택 (또는 평균화 ) 방법 (계산 가능한 경우 모든 하위 집합 또는 축소 방법)에 의해 지배됩니다 . 그러나 간단하고 구현하기 쉽고 대답이 명확하면 (강한 신호에 해당하는 일부 매개 변수, 약한 중간, 소수의 중간 매개 변수) 합리적인 결과를 얻을 수 있습니다. 또한 추론과 예측에는 큰 차이가 있습니다. 예를 들어, 강한 상관 관계가있는 예측 변수가 몇 개인 경우 ( "진실"/ 인과 적 관점에서) 잘못된 것을 선택하는 것은 추론에 큰 문제이지만 최상의 AIC를 제공하는 것을 선택하는 것은 합리적입니다. 예측 전략 (예측 변수의 상관 관계가 변경되는 상황을 예측하려고하면 실패하는 전략 임에도 불구하고 ...)

결론 : 적당한 신호대 잡음비로 적당한 크기의 데이터를 위해 AIC 기반의 단계적 선택은 실제로 방어 적 예측 모델을 생성 할 수 있습니다. 예를 들어 Murtaugh (2009)를 참조하십시오.

Murtaugh, Paul A. "실제 생태 데이터에 적용되는 몇 가지 변수 선택 방법의 성능." 생태 편지 12, 아니. 10 (2009) : 1061-1068.



번햄 앤더슨을 시작하지 마십시오. github.com/bbolker/discretization
벤 볼커
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.