내가 이해 한 바에 따르면, p- 값을 기반으로 한 변수 선택 (적어도 회귀 컨텍스트에서)에는 결함이 있습니다. AIC (또는 유사한)를 기반으로 한 변수 선택도 비슷한 이유로 약간의 결함으로 간주됩니다. 비록 이것이 다소 불분명 한 것처럼 보이지만 (예를 들어 내 질문 과이 주제에 대한 일부 링크를 참조하십시오 : "단계적 모델 선택"은 정확히 무엇입니까? ).
그러나이 두 방법 중 하나를 사용하여 모형에서 최상의 예측 변수 집합을 선택한다고 가정하십시오.
Burnham and Anderson 2002 (83 페이지 모형 선택 및 다중 모형 추론 : 실제 정보 이론적 접근)에서는 AIC를 기반으로 한 변수 선택과 가설 검정을 기반으로 한 변수 선택을 혼합해서는 안된다고 말합니다 . "함께 사용하지 마십시오; 그들은 매우 다른 분석 패러다임입니다."
한편, Zuur et al. 2009 (541 페이지, R의 생태학에서 확장 기능이있는 혼합 효과 모델)은 AIC를 사용 하여 먼저 최적의 모델을 찾은 다음 가설 테스트를 사용하여 "미세 조정"을 수행 하는 것을 옹호하는 것처럼 보입니다 . "AIC는 보수적 일 수 있다는 단점이 있습니다. AIC가 최적의 모델을 선택한 후에는 약간의 미세 조정 (가설 테스트를 통해 접근 방법 1)을 적용해야 할 수도 있습니다. "
이것이 어떻게 두 책의 독자가 어떤 접근 방식을 혼란스럽게하는지 알 수 있습니다.
1) 통계 학자들의 통계 캠프와 의견 불일치의 주제가 다른가? 이러한 접근 방식 중 하나가 이제는 단순히 "오래된"것이지만 글을 쓰는 시점에는 적절한 것으로 간주 되었습니까? 아니면 처음부터 평범하지 않은가?
2)이 접근법이 적합한 시나리오가 있습니까? 예를 들어, 나는 생물학적 배경에서 왔는데, 종종 어떤 변수가 내 반응에 영향을 미치거나 반응을 일으키는 것으로 보이는지 결정하려고합니다. 나는 종종 다수의 후보 설명 변수를 가지고 있는데, "중요한"(상대적인 용어)을 찾으려고 노력하고 있습니다. 또한 후보 예측 변수의 집합은 생물학적 관련성이 있다고 생각되는 변수로 이미 축소되었지만 여전히 5-20 개의 후보 예측 변수를 포함 할 수 있습니다.