변수 선택에 대한 충돌 접근법 : AIC, p- 값 또는 둘 다?


13

내가 이해 한 바에 따르면, p- 값을 기반으로 한 변수 선택 (적어도 회귀 컨텍스트에서)에는 결함이 있습니다. AIC (또는 유사한)를 기반으로 한 변수 선택도 비슷한 이유로 약간의 결함으로 간주됩니다. 비록 이것이 다소 불분명 한 것처럼 보이지만 (예를 들어 내 질문 과이 주제에 대한 일부 링크를 참조하십시오 : "단계적 모델 선택"은 정확히 무엇입니까? ).

그러나이 두 방법 중 하나를 사용하여 모형에서 최상의 예측 변수 집합을 선택한다고 가정하십시오.

Burnham and Anderson 2002 (83 페이지 모형 선택 및 다중 모형 추론 : 실제 정보 이론적 접근)에서는 AIC를 기반으로 한 변수 선택과 가설 검정을 기반으로 한 변수 선택을 혼합해서는 안된다고 말합니다 . "함께 사용하지 마십시오; 그들은 매우 다른 분석 패러다임입니다."

한편, Zuur et al. 2009 (541 페이지, R의 생태학에서 확장 기능이있는 혼합 효과 모델)은 AIC를 사용 하여 먼저 최적의 모델을 찾은 다음 가설 테스트를 사용하여 "미세 조정"을 수행 하는 것을 옹호하는 것처럼 보입니다 . "AIC는 보수적 일 수 있다는 단점이 있습니다. AIC가 최적의 모델을 선택한 후에는 약간의 미세 조정 (가설 테스트를 통해 접근 방법 1)을 적용해야 할 수도 있습니다. "

이것이 어떻게 두 책의 독자가 어떤 접근 방식을 혼란스럽게하는지 알 수 있습니다.

1) 통계 학자들의 통계 캠프와 의견 불일치의 주제가 다른가? 이러한 접근 방식 중 하나가 이제는 단순히 "오래된"것이지만 글을 쓰는 시점에는 적절한 것으로 간주 되었습니까? 아니면 처음부터 평범하지 않은가?

2)이 접근법이 적합한 시나리오가 있습니까? 예를 들어, 나는 생물학적 배경에서 왔는데, 종종 어떤 변수가 내 반응에 영향을 미치거나 반응을 일으키는 것으로 보이는지 결정하려고합니다. 나는 종종 다수의 후보 설명 변수를 가지고 있는데, "중요한"(상대적인 용어)을 찾으려고 노력하고 있습니다. 또한 후보 예측 변수의 집합은 생물학적 관련성이 있다고 생각되는 변수로 이미 축소되었지만 여전히 5-20 개의 후보 예측 변수를 포함 할 수 있습니다.


3
ZIC의 통계적 주장이 AIC 선택 후 가설 테스트를 통한 미세 조정에 어떤 영향을 미치는지 궁금합니다. 모델 구축의 일관된 전략처럼 보이지는 않습니다. 그러나 나는 그 것들에 대해 충분히 알지 못합니다.
Richard Hardy

2
제 생각에 Zuur et al.의 제안은 좋지 않습니다 (왜 모델 선택에 유의성 테스트를 사용 하시겠습니까?). Burnham과 Anderson의 진술도 정확하지는 않습니다. 좋은 질문이지만 대답하기 위해서는 지금까지 읽은 것보다 더 자세한 기술적 인 내용을 읽어야합니다.
Kodiologist

패널 판매를 예측하기 위해 모델에서 두 가지 방법을 모두 사용했습니다. AIC 기반의 단계적 역행 회귀는 내 경험에서 더 나은 결과를주는 것으로 보입니다.
Souptik Dhar 2016

1
@SouptikDhar, "더 나은"결과를 말할 때 정확히 어떤 의미입니까?
Tilen

아마도 대답은 분석의 목표에 달려 있습니까? 관측 연구에서, 데이터 세트가 주어지면 가장 교묘 한 모델을 찾는 것이 바람직 할 수 있으며, 예를 들어 "AIC에 기초한 변수 선택"에 의존한다. 그러나 목표가 검정에 가설을 두는 것이 목적이라면, 가설에 대한 관심 변수에 대한 적절한 프록시에 대한 가설의 전이 인 모델은 이미 처음부터 지정되었으므로 이에 대한 여지가 없습니다. 변수 선택 IMHO?
Rodolphe

답변:


6

짧은 대답.

데이터 중심 모델 선택 또는 튜닝을 수행 한 다음 선택 / 조정 된 모델 (a la Zuur et al. 및 Crawley와 같은 다른 많은 존경받는 생태 학자)에서 표준 추론 방법을 사용 하는 접근 방식 은 항상 지나치게 낙관적 인 결과를 제공합니다 . 간격 (부족한 범위), 지나치게 작은 p- 값 (높은 유형 I 오류). 이는 표준 추론 방법이 모델이 우선적으로 지정되었다고 가정하기 때문입니다 . 모델 튜닝 프로세스를 고려하지 않습니다.

이것이 Frank Harrell ( Regression Modeling Strategies ) 과 같은 연구자들이 단계적 회귀와 같은 데이터 중심의 선택 기술을 강력하게 비 승인하고 모델 복잡도의 감소 ( "차원 감소", 예를 들어 예측 변수의 PCA 계산) 및 예측 변수 만을 관찰함으로써 예측 자로서 처음 몇 개의 PCA 축을 선택하는 단계 를 포함한다.

당신이 관심이 있다면 오직 최고의 예측 모델을 찾는 (추론의 영역에 빠진다하여 예측의 불확실성의 신뢰성있게 추정의 모든 종류의에 관심이되지 않습니다!), 다음 데이터 기반 모델 튜닝 벌금 (비록입니다 단계적 선택이 가장 적합한 옵션은 거의 없습니다.) 머신 러닝 / 통계 학습 알고리즘은 최상의 예측 모델을 얻기 위해 많은 튜닝을 수행합니다. "테스트"또는 "샘플 외부"오류는 별도의 보류 샘플에서 평가해야하며, 또는 모든 튜닝 방법을 교차 검증 절차에 내장해야합니다.

이 주제에 대한 의견에서 역사적으로 진화 한 것으로 보인다. 많은 고전적인 통계 교과서, 특히 회귀에 중점을 둔 교과서에서는 모델 선택의 영향을 고려하지 않고 단계적 접근법과 표준 추론 절차를 제시합니다.

변수의 중요도를 정량화하는 방법에는 여러 가지가 있으며 모두 사후 변수 선택 트랩에 속하지는 않습니다.

  • 번햄과 앤더슨은 합산 AIC 가중치를 권장합니다. 이 접근법에 대해서는 약간의 의견 차이가 있습니다.
  • 전체 모형 (적절하게 스케일링 / 단위가없는 예측 변수 포함)을 맞추고 예측 크기 [생물학적 효과 크기] 또는 Z- 점수 [ "명확도"/ 통계 효과 크기]로 예측 변수의 순위를 지정할 수 있습니다.

1

나는 생물학적 배경에서 왔으며 대학 병원에서 일하는 고용 된 생물 통계 학자입니다. 나는 특히 www에 대한 Harrell의 의견과 그의 저서 Regression Modeling Strategies를 포함하여 최근에 이것에 대해 많이 읽었습니다. 더 이상 그를 인용하지 않고 경험에서 말하면 : 그것은 분야와 관련이 있기 때문에, 이것이 고려해야 할 첫 번째 수준이라고 생각합니다. 두 번째 수준은 과학적 경험을 통해 예측하려는 내용을 표현하는 데 핵심적인 의미가 있어야한다는 합리적인 합리적 접근 방식을 얻는 것입니다. 세 번째는 상호 작용을 설명하는 것이며, 이는 매우 중요하며, 통계적 접근 또는 통찰력으로 해결할 수 있습니다. 병원 데이터를 사용하는 경우에는 4 번째 방법 만 선택합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.