AIC 또는 p- 값 : 모델 선택을 위해 어떤 것을 선택해야합니까?

22

나는이 R 일에 익숙하지 않지만 어떤 모델을 선택 해야할지 확실하지 않습니다.

가장 낮은 AIC를 기반으로 각 변수를 선택 하는 단계적 회귀 분석 을 수행했습니다. 나는 어느 것이 "최고"인지 확신 할 수없는 3 가지 모델을 생각 해냈다.
```
Model 1: Var1 (p=0.03) AIC=14.978
Model 2: Var1 (p=0.09) + Var2 (p=0.199) AIC = 12.543
Model 3: Var1 (p=0.04) + Var2 (p=0.04) + Var3 (p=0.06) AIC= -17.09
```
AIC가 가장 낮고 (음수가 괜찮다고 들었습니다) p- 값이 여전히 낮기 때문에 Model # 3을 사용하는 경향이 있습니다.

Hatchling Mass의 예측 변수로 8 개의 변수를 실행했으며이 세 가지 변수가 최상의 예측 변수라는 것을 알았습니다.

다음 단계에서는 AIC가 약간 더 커도 p 값이 모두 작기 때문에 Model 2를 선택합니다. 이것이 최고라고 동의하십니까?

Model 1: Var1 (p=0.321) + Var2 (p=0.162) + Var3 (p=0.163) + Var4 (p=0.222)  AIC = 25.63
Model 2: Var1 (p=0.131) + Var2 (p=0.009) + Var3 (p=0.0056)                  AIC = 26.518
Model 3: Var1 (p=0.258) + Var2 (p=0.0254)                                   AIC = 36.905

감사!

model-selection aic stepwise-regression

— 멜
소스

(1)과 (2)의 차이점을 말씀해 주시겠습니까? (1)의 모델 3과 (2)의 모델 2는 명목상 동일하지만 p- 값과 AIC가 다르기 때문에 분명히 무언가가 변경되었습니다.

— whuber

2

이 질문은 두 번 다시 게시되었으므로 질문을 닫아야 할뿐만 아니라 이미 귀하에게 제공된 관련 답변도 포함되어 있습니다. 계정을 등록하고 ( FAQ 참조 ) 향후 StackExchange 게시 정책에주의를 기울이시겠습니까? 감사.

— chl

@ whuber, 귀하의 질문을 완전히 이해하지 못합니다. 통계적 이해가 부족한 것 같습니다. 그러나 명확히하려고합니다. 모형 1에는 4 개의 변수가 있고 모형 2에는 3 개의 변수가 있으며 모형 3에는 2 개의 변수가 있습니다. 변수는 모든 모델에서 동일한 순서로되어 있습니다 (각 모델에서 변수 1 = 온도를 의미). @GaBorgulya와 @djma가 내 질문에 완벽하게 대답했다고 생각합니다. 변수 4 IS는 변수 3과 상관되어 있습니다. AH-HA! 맞는 말이다. 고마워요!

— MEL

귀하의 답변을 위의 의견으로 변환했습니다. 현재 답변 중 하나가 도움이되거나 귀하의 질문에 답변했다고 생각되면 @richiemorrisroe가 친절하게 상기 한대로 수락하는 것을 잊지 마십시오. BTW, 계정 등록을 see 게되어 반갑습니다.

— chl

23

AIC는 모형에서 더 작은 잔차 오차를 선호하지만 추가 예측 변수를 포함하는 데 불이익을주고 초과 적합을 피하는 데 도움이되는 적합도 측도입니다. 두 번째 모델 집합에서 모델 1 (AIC가 가장 낮은 모델)은 데이터 집합 외부의 예측에 사용될 때 가장 잘 수행 될 수 있습니다. Var4를 모델 2에 추가하는 이유에 대한 가능한 설명은 AIC가 더 낮지 만 p 값이 높을수록 Var4는 Var1, 2 및 3과 다소 상관 관계가 있다는 것입니다. 따라서 모델 2의 해석이 더 쉽습니다.

— 가보 리야
소스

31

개별 p- 값을 보면 오해의 소지가 있습니다. 공 선형 (상관성이 높은) 변수가있는 경우 큰 p- 값을 얻게됩니다. 그렇다고 변수가 쓸모 없다는 것은 아닙니다.

경험상 AIC 기준으로 모델을 선택하는 것이 p- 값을 보는 것보다 낫습니다.

변수 대 데이터 포인트 비율이 큰 경우 AIC가 가장 낮은 모델을 선택하지 못하는 이유가 있습니다.

모델 선택 및 예측 정확도는 다소 뚜렷한 문제입니다. 정확한 예측을 얻는 것이 목표라면 훈련 및 테스트 세트에서 데이터를 분리하여 모델을 교차 검증하는 것이 좋습니다.

변수 선택에 관한 논문 : 변수 선택을위한 확률 적 단계적 유사

— djma
소스

4

목표가 예측 정확도 인 경우 AIC를 사용하려고합니다 (적합한 모형과 진리 간의 예상 KL 발산을 최소화하므로). 일관된 모델 선택 절차 (고정 된 p, 증가하는 n)를 원한다면 대신 BIC를 사용할 수 있습니다. 단계적 회귀 분석에서 p- 값을 사용하여 가설을 선택하는 것은 확실히 권장되지 않습니다.

— emakalic

8

0.154

$0.154$

| t | > \sqrt{\log (N)}

$|t|>\sqrt{\log(N)}$

-3

AIC는 일반화 오차 (Mallow의 CP, BIC 등)의 추정에 의해 동기가 부여됩니다. 예측 모델을 원하면 다음 기준 중 하나를 사용하는 것이 좋습니다. 현상을 설명하기 위해 모델을 원하면 p- 값을 사용하십시오.

또한 여기를 참조 하십시오 .

— 존 로스
소스