BIC는 실제 모델을 찾으려고합니까?


17

이 질문은 주제 I과 관련하여 가능한 혼란을 없애기위한 후속 조치 또는 시도이며, 많은 사람들이 AIC와 BIC의 차이점에 대해 조금 어려워합니다. 이 주제에 대한 @Dave Kellen의 매우 좋은 답변 ( /stats//a/767/30589 )에서 우리는 다음을 읽습니다.

귀하의 질문은 AIC와 BIC가 동일한 질문에 대답하려고 시도한다는 것을 암시합니다. AIC는 알려지지 않은 높은 차원의 현실을 가장 적절하게 설명하는 모델을 선택하려고합니다. 즉, 현실은 고려중인 후보 모델 집합에 포함되지 않습니다. 반대로, BIC는 후보 집합 중에서 TRUE 모델을 찾으려고 시도합니다. 나는 연구원들이 그 길을 따라 구축 한 모델 중 하나에서 현실이 인스턴스화되었다는 가정이 매우 이상하다는 것을 알았습니다. 이것은 BIC의 실질적인 문제입니다.

@ gui11aume에 의한 아래 주석에서 우리는 다음과 같이 읽습니다.

(-1) 대단한 설명이지만 어설 션에 이의를 제기하고 싶습니다. @Dave Kellen TRUE 모델이 BIC를위한 세트에 있어야한다는 아이디어를 언급 해 주시겠습니까? 이 책 에서 저자는 이것이 사실이 아니라는 설득력있는 증거를 제공하기 때문에 이것에 대해 조사하고 싶습니다 . – gui11aume 5 월 27 일 12시 21:47

이 주장은 Schwarz 자신 (1978)의 주장 인 것 같지만 주장은 필요하지 않았다. 동일한 저자 (@ gui11aume이 링크 한 것처럼)는 "Multimodel 추론 : 모델 선택에서 AIC 및 BIC 이해하기"( 번햄 앤더슨, 2004) :

BIC의 파생이 실제 모델의 존재를 가정합니까, 아니면 더 좁은 범위에서 실제 모델이 BIC를 사용할 때 모델 세트에 있다고 가정합니까? (Schwarz의 파생에서는 이러한 조건을 지정했습니다.) ... 답변 ... 아니오. 즉, 파생을 기반으로하는 모델이 참이라고 가정하지 않고 BIC (특정 베이지안 적분에 대한 근간을위한 기초)을 도출 할 수 있습니다 (예 : Cavanaugh and Neath 1999; Burnham and Anderson 2002 : 293-5). 확실히, BIC를 적용 할 때 모델 세트는 완전 현실을 나타내는 (존재하지 않는) 진정한 모델을 포함 할 필요는 없습니다. 더욱이, (ICD 샘플의 이상화 하에서) BIC- 선택 모델이 타르 베트 모델에 대한 확률의 수렴은 목표 모델이 실제 데이터 생성 분포 여야한다는 것을 논리적으로 의미하지는 않는다.

따라서이 주제에 대해 토론하거나 설명이 필요하다고 생각합니다. 현재 AIC와 BIC의 차이점에 대해 매우 찬성표를받은 @ gui11aume (감사합니다!)의 의견입니다.


1
질문을 더 잘 초점을 맞추기 위해 AIC를 제목에서 제거 할 수 있습니다. 올바로 이해하면 BIC를 사용할 때 실제 모델이 후보 세트에 있어야하는지 여부에 관한 것입니다.
Juho Kokkala

@ JuhoKokkala : 동의합니다.
Erosennin

4
결론적으로, 대부분의 실제 응용 분야에서 BIC는 과적 합을 초래하고 AIC는 수작업이 아닌 새로운 데이터에 대한 모델의 가능한 성능을보다 정확하게 평가한다는 것입니다. 그러나 3 개의 경쟁 모델 / 기능 세트 중에서 선택하는 경우 AIC를 사용하든 BIC를 사용하든 결과 모델이 과적 합 될 수 있습니다. AIC 및 BIC는 잠재적 인 모델 수가 적거나 모델이 적은 수의 매개 변수 (예 : 위약금)로 연결된 경우에 가장 잘 작동합니다.
Frank Harrell

참조를 파헤친 @Erosennin에게 감사합니다. 이제 TRUE 모델을 포함시켜야한다는 아이디어가 어디에서 왔는지 이해합니다.
gui11aume

@ FrankHarrell : "실제 응용 프로그램"의 의미를 설명해 주시겠습니까? Burnham과 Anderson을 올바르게 이해하면 데이터가 부족할 때 BIC가 적합하지 않은 것으로 보입니다. 많은 데이터가있을 때 BIC는 실제로 AIC보다 더 복잡한 유사 모델을 선택 / 검색 할 것입니다. AIC와 BIC는 "타겟 모델"이 다릅니다. 기사 나 책으로 나를 가리 키기 만하면, 당신이하는 말을 자세히 설명하고 싶습니다.
Erosennin

답변:


11

Schwarz (1978)의 Information Criterion은 사후 확률이 높은 모델, 즉 데이터가 동일한 사전 조건 하에서 가능성이 높은 모델을 무의식적으로 선택하는 기능으로 설계되었습니다. 그래서 대략

p(M1|y)p(M2|y)>1ASIC(M1)<SIC(M2)
Ap(Mj|y)jy

IC(k)=2Tl(θ^;y)+kg(T)
l(θ^;y)θ^kT
g(T)0as
Tg(T)as
gAIC(T)=2T,gSIC(T)=lnTT

Elliott, G. 및 A. Timmermann (2016, 4 월). 경제 예측. 프린스턴 대학 출판부.

슈워츠, 기드온 "모델의 치수 추정." 통계 6.2 (1978)의 연대기 : 461-464.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.