AIC와 BIC는 추정 된 매개 변수의 수에 대해 벌점을 적용한 모형 적합을 평가하는 방법입니다. 내가 알기로, BIC는 AIC보다 무료 매개 변수에 대해 모델에 더 많은 불이익을가합니다. 기준의 엄격 성을 기반으로 한 선호를 넘어서, BIC보다 AIC를 선호하거나 그 반대의 다른 이유가 있습니까?
AIC와 BIC는 추정 된 매개 변수의 수에 대해 벌점을 적용한 모형 적합을 평가하는 방법입니다. 내가 알기로, BIC는 AIC보다 무료 매개 변수에 대해 모델에 더 많은 불이익을가합니다. 기준의 엄격 성을 기반으로 한 선호를 넘어서, BIC보다 AIC를 선호하거나 그 반대의 다른 이유가 있습니까?
답변:
귀하의 질문은 AIC와 BIC가 동일한 질문에 대답하려고 시도한다는 것을 암시합니다. AIC는 알려지지 않은 높은 차원의 현실을 가장 적절하게 설명하는 모델을 선택하려고합니다. 즉, 현실은 고려중인 후보 모델 세트에 포함되지 않습니다. 반대로, BIC는 후보 집합 중에서 TRUE 모델을 찾으려고 시도합니다. 나는 연구원들이 그 길을 따라 구축 한 모델 중 하나에서 현실이 인스턴스화되었다는 가정이 매우 이상하다는 것을 알았습니다. 이것은 BIC의 실제 문제입니다.
그럼에도 불구하고 모델 복구 시뮬레이션을 논증으로 사용하여 BIC가 AIC보다 낫다고 말하는 많은 연구자들이 있습니다. 이 시뮬레이션은 모델 A와 B에서 데이터를 생성 한 다음 두 데이터 세트를 두 모델에 맞추는 것으로 구성됩니다. 과적 합은 잘못된 모델이 생성보다 데이터에 더 적합 할 때 발생합니다. 이러한 시뮬레이션의 요점은 AIC와 BIC가 이러한 과적 합을 얼마나 잘 수정하는지 확인하는 것입니다. 일반적으로 결과는 AIC가 너무 자유롭고 종종 더 단순하고 실제 모델보다 더 복잡하고 잘못된 모델을 선호한다는 사실을 지적합니다. 언뜻보기에 이러한 시뮬레이션은 실제로 좋은 논증 인 것처럼 보이지만 AIC에는 의미가 없다는 점이 문제입니다. 앞서 말했듯이 AIC는 테스트중인 후보 모델이 실제로 사실이라고 생각하지 않습니다. AIC에 따르면 모든 모델은 현실에 대한 근사치이며 현실은 절대로 차원이 낮아서는 안됩니다. 적어도 일부 후보 모델보다 낮습니다.
AIC와 BIC를 모두 사용하는 것이 좋습니다. 대부분의 경우 선호 모델에 동의하지 않을 경우보고 만하면됩니다.
AIC와 BIC 모두에 만족하지 않고 투자 할 자유 시간이 있다면 AIC와 BIC의 한계를 극복하는 완전히 다른 접근법 인 최소 설명 길이 (MDL)를 찾아보십시오. 정규화 된 최대 우도 또는 Fisher 정보 근사와 같은 MDL에서 비롯된 몇 가지 조치가 있습니다. MDL의 문제는 수학적으로 까다 롭고 계산적으로 집중적이라는 것입니다.
그럼에도 불구하고 간단한 솔루션을 고수하려는 경우 모델 유연성을 평가하는 좋은 방법 (특히 매개 변수 수가 같고 AIC 및 BIC를 쓸모 없게하는 경우)은 파라 메트릭 부트 스트랩을 수행하는 것입니다. 이는 구현하기 매우 쉽습니다. 여기 에 종이에 대한 링크 가 있습니다.
여기에있는 일부 사람들은 교차 검증 사용을 옹호합니다. 나는 개인적으로 그것을 사용하고 그것에 대해 아무것도 가지고 있지 않지만 그것에 대한 문제는 샘플 절단 규칙 (leave-one-out, K-fold 등) 중에서 선택할 수 없다는 것이 원칙입니다.
AIC와 BIC는 모두 최대 우도 추정치 이며 과적 합에 대항하기 위해 자유 매개 변수에 불이익을 주지만, 행동이 크게 다른 방식으로 그렇게합니다. 일반적으로 제시되는 방법의 한 가지 버전 (정규 분포 오류 및 기타 잘 작동하는 가정을 형성하는 결과)을 살펴 보겠습니다.
과
어디:
그룹에서 가장 좋은 모델은 두 경우 모두 이러한 점수를 최소화하는 모델입니다. 분명히 AIC는 샘플 크기에 직접 의존하지 않습니다. 또한 일반적으로 말하면 AIC는 과잉 적합 할 수있는 위험을 제시하는 반면 BIC는 자유 매개 변수 (AIC에서 2 * k; BIC에서 ln (N) * k)를 처벌하는 방식 때문에 적합하지 않을 위험을 나타냅니다. 대화식으로, 데이터가 도입되고 점수가 재 계산 될 때, 상대적으로 낮은 N (7 이하)에서 BIC는 AIC보다 자유 매개 변수에 대해 더 관대하지만 높은 N에서는 (N의 자연 로그가 2를 극복하므로) 더 관대하지 않습니다.
또한 AIC는 예상되는 추정 KL 발산 을 최소화하여 알려지지 않은 데이터 생성 프로세스에 가장 적합한 근사 모델을 찾는 것을 목표로합니다 . 따라서 실제 모델로 확률 적으로 수렴하지 못하고 (평가 된 그룹에 모델이 있다고 가정) BIC는 N이 무한대 인 것처럼 수렴합니다.
따라서 많은 방법 론적 질문에서와 같이 선호되는 것은 수행하려는 작업, 사용 가능한 다른 방법 및 설명 된 기능 (수렴, 자유 매개 변수에 대한 상대 허용 오차, 예상 KL 발산 최소화)에 따라 다릅니다. ), 목표를 말하십시오.
내 빠른 설명은
내 경험상, BIC는 예측 차질을 극대화하는 것이 목표 일 때 심각한 언더 피팅을 초래하고 AIC는 일반적으로 성능이 우수합니다.
Brian Ripley의 AIC 및 BIC에 대한 정보를 제공하고 액세스 가능한 "파생"은 여기에서 찾을 수 있습니다. http://www.stats.ox.ac.uk/~ripley/Nelder80.pdf
Ripley는 수학적 결과의 배후에있는 가정에 대해 언급합니다. Ripley는 다른 답변 중 일부가 나타내는 것과는 달리 AIC는 모델이 참이라고 가정하고 있다고 강조합니다. 모형이 참이 아닌 경우 일반 계산에서는 "매개 변수 수"가 더 복잡한 수량으로 대체되어야 함을 알 수 있습니다. 일부 참고 문헌은 Ripleys 슬라이드에 나와 있습니다. 그러나 선형 회귀 (알려진 분산으로 말하면)의 경우 일반적으로 더 복잡한 양은 모수의 수와 동일하게 단순화됩니다.
실제로 유일한 차이점은 BIC가 AIC로 확장되어 많은 객체 (샘플)를 고려한다는 것입니다. 나는 둘 다 상당히 약하지만 (예 : 교차 유효성 검사와 비교하여) AIC를 사용하는 것이 더 낫습니다. 많은 사람들이 약어에 익숙 할 것입니다. 나는 여전히 그런 기준이 효과가없는 문제에 편견이 있다는 것을 인정한다.
편집 : AIC와 BIC는 두 가지 중요한 가정, 즉 모델이 최대 우도 일 때와 훈련 데이터에 대한 모델 성능에만 관심이있는 경우 두 가지 중요한 가정을 제공하는 교차 검증과 동일합니다. 일부 데이터를 어떤 종류의 합의로 축소시키는 경우 완벽하게 괜찮습니다.
실제 문제에 대한 예측 기계를 만드는 경우 첫 번째는 거짓입니다. 훈련 세트는 처리중인 문제에 대한 정보 스크랩 만 나타내므로 모델을 최적화 할 수 없습니다. 두 번째는 거짓입니다. 모델이 훈련 세트가 대표적이라고 기대할 수없는 새로운 데이터를 처리 할 것으로 예상하기 때문입니다. 그리고이를 위해 CV가 발명되었습니다. 독립적 인 데이터에 직면했을 때 모델의 동작을 시뮬레이션합니다. 모델 선택의 경우 CV는 품질 근사치뿐만 아니라 품질 근사 분포도 제공하므로 "새로운 데이터가 나올지 모를 수 있습니다. 보다 나은."
앞에서 언급했듯이 AIC 및 BIC는 더 많은 회귀 변수를 갖는 모델에 불이익을주는 방법입니다. 모델에서 매개 변수 수의 함수 인 페널티 함수가 이러한 방법에 사용됩니다.
AIC를 적용 할 때 페널티 함수는 z (p) = 2 p 입니다.
BIC를 적용 할 때, 페널티 함수는 z (p) = p ln ( n )이며, 이는 이전 정보 (따라서 베이지안 정보 기준 (Bayesian Information Criterion)이라는 이름)에서 파생 된 페널티를 해석하는 것을 기반으로합니다.
때 n이 큰 두 모델은 매우 다른 결과를 생성합니다. 그런 다음 BIC는 복잡한 모델에 훨씬 큰 페널티를 적용하므로 AIC보다 간단한 모델로 이어질 것입니다. 그러나 BIC의 Wikipedia에 명시된 바와 같이 :
많은 애플리케이션에서 BIC는 관심 모델에 대해 매개 변수 수가 동일하므로 최대 가능성 선택으로 간단히 줄어 듭니다.
내가 알 수 있듯이 AIC와 BIC 사이에는 큰 차이가 없습니다. 그것들은 모델을 효율적으로 비교하기 위해 수학적으로 편리한 근사치 입니다. 서로 다른 "최상의"모델을 제공하는 경우 모델 불확실성이 높을 수 있습니다. 이는 AIC를 사용해야하는지 아니면 BIC을 사용해야하는지보다 걱정하는 것이 더 중요합니다. 나는 개인적으로 BIC를 더 좋아합니다. 모델에 더 많은 (더 적은) 데이터가 매개 변수에 맞는지 묻기 때문에-학생이 더 많은 (더 적은) 성능을 요구하면 더 높은 (낮은) 성능 표준을 요구하는 교사와 같습니다. ) 주제에 대해 배울 시간. 나에게 이것은 직관적 인 일처럼 보입니다. 그러나 간단한 형식을 감안할 때 AIC에 대해서도 똑같이 직관적이고 강력한 주장이 존재한다고 확신합니다.
이제 당신이 근사를 할 때마다 그 근사치가 쓰레기 일 때 어떤 조건이있을 것입니다. 이것은 원래 근사를 나쁘게 만드는 특정 조건을 설명하기 위해 많은 "조정"(AICc)이 존재하는 AIC에서 확실히 볼 수 있습니다. Zellner g-prior의 혼합물에 대한 완전 라플라스 근사치 (BIC는 적분에 대한 라플라스 근사법에 대한 근사치)와 같은 다양한 더 정확한 (그러나 여전히 효율적인) 방법이 존재하기 때문에 BIC에도 존재합니다.
둘 다 허비되는 곳은 주어진 모델 내의 매개 변수에 대한 실질적인 사전 정보가있을 때입니다. AIC 및 BIC는 데이터로부터 파라미터를 추정해야하는 모델과 비교하여 파라미터가 부분적으로 알려진 모델에 불필요하게 불이익을가합니다.
그런 다음 동일한 확률 모델 (동일한 매개 변수, 동일한 데이터, 동일한 근사 등)을 계속 할당하면 동일한 BIC 값 집합을 얻게됩니다. 논리 문자 "M"에 일종의 독특한 의미를 부여하는 것만으로 "진정한 모델"( "진정한 종교"의 메아리)에 대한 관련이없는 질문에 빠지게됩니다. M을 "정의"하는 유일한 것은 계산에 그것을 사용하는 수학적 방정식입니다. 그리고 이것은 단 하나의 정의를 거의 찾아 낼 수 없습니다. 나는 M에 대한 예측 제안을 똑같이 넣을 수 있었다 ( "i 번째 모델이 최상의 예측을 줄 것이다"). 개인적으로 이것이 어떻게 가능성을 바꾸는 지 알 수 없으므로 BIC가 얼마나 좋거나 나쁜지 (AIC도 다른 파생물을 기반으로하지만)
게다가, 진술의 문제점 실제 모델이 고려중인 세트에 있다면, 모델 B 일 가능성은 57 % 입니다. 나에게 충분히 합리적으로 보이거나, 더 "부드러운"버전으로 갈 수있을 것 입니다. 모델 B가 고려중인 세트 중에서 최고 일 확률은 57 %입니다.
마지막 의견 : AIC / BIC에 대해 아는 사람들이있는만큼 AIC / BIC에 대한 의견이 많이있을 것입니다.
AIC는 실제로 무증상으로 만 유효하므로 거의 사용하지 않아야합니다. 그것은 거의 항상 더 나은 (A와 AIC AICC를 사용하는 것입니다 C의 유한 표본 크기에 대한 orrection). AIC는 매개 변수를 과도하게 사용하는 경향이 있습니다. AICc를 사용하면 문제가 크게 줄어 듭니다. AICc 사용에 대한 주요 예외는 기본 분포가 심하게 leptokurtic 일 때입니다. 이에 대한 자세한 내용은 Burnham & Anderson의 Model Selection 책을 참조하십시오 .
AIC 및 BIC는 모델을 비교하기위한 정보 기준입니다. 각각은 모델 적합과 parsimony의 균형을 맞추려고 시도하고 매개 변수 수에 따라 다르게 벌점을줍니다.
KIC에 대해 들어 보지 못했습니다.
아주 간단히 :
여기서, 하나의 목표 (LASSO 또는 탄성 그물 회귀)를 최적화 한 후 다른 목표 (예를 들어 교차 검증 예측 오차, AIC 또는 BIC를 최소화)에 기초한 정규화 파라미터 (들)의 튜닝이 뒤 따른다.
LOOCV 오차는 실제로 교차 검증을 수행 할 필요없이 모자 행렬 의 잔차와 대각선 으로부터 분석적 으로 계산 될 수 있습니다 . 이것은 LOOCV 오류의 점근 적 근사값으로 항상 AIC의 대안입니다.
참고 문헌
Stone M. (1977) 교차 검증 및 Akaike의 기준에 의한 모델 선택의 점근 적 동등성. 왕립 통계 학회지 시리즈 B. 39, 44–7.
Shao J. (1997) 선형 모델 선택에 대한 점근 론. Statistica Sinica 7, 221-242.