AIC 또는 BIC를 다른 것보다 선호하는 이유가 있습니까?


222

AIC와 BIC는 추정 된 매개 변수의 수에 대해 벌점을 적용한 모형 적합을 평가하는 방법입니다. 내가 알기로, BIC는 AIC보다 무료 매개 변수에 대해 모델에 더 많은 불이익을가합니다. 기준의 엄격 성을 기반으로 한 선호를 넘어서, BIC보다 AIC를 선호하거나 그 반대의 다른 이유가 있습니까?


1
이 토론을 "특징"선택 또는 "공변량"선택이라고 부르는 것이 더 적절하다고 생각합니다. 저에게 모델 선택은 오류 분포, 링크 함수 형태 및 공변량 형태를 지정하는 것보다 훨씬 광범위합니다. 우리가 AIC / BIC에 관해 이야기 할 때, 우리는 일반적으로 공변량의 선택을 제외하고 모델 구축의 모든 측면이 고정 된 상황에 있습니다.

6
모델에 포함 할 특정 공변량을 결정하는 것은 일반적으로 모델 선택이라는 용어로 진행되며 제목에 모델 선택이 포함 된 많은 책이 모델에 포함 할 모델 공변량 / 모수를 주로 결정합니다.
Michael Chernick

귀하의 질문이 계통 발생 (생물 정보학)에 구체적으로 적용되는지는 모르겠지만, 그렇다면이 연구는이 측면에 대한 몇 가지 생각을 제공 할 수 있습니다. ncbi.nlm.nih.gov/pmc/articles/PMC2925852
tlorin

병합 된 질문은 또한 KIC대해 질문합니다. 질문 텍스트를 업데이트하고 KIC의 정의를 pref와 연결하십시오.
smci

1
@smci stats.stackexchange.com/questions/383923/… 을 추가 하여 사람들이 관심이있는 경우 KIC와 관련된 질문을 파헤칠 수 있습니다.
russellpierce

답변:


179

귀하의 질문은 AIC와 BIC가 동일한 질문에 대답하려고 시도한다는 것을 암시합니다. AIC는 알려지지 않은 높은 차원의 현실을 가장 적절하게 설명하는 모델을 선택하려고합니다. 즉, 현실은 고려중인 후보 모델 세트에 포함되지 않습니다. 반대로, BIC는 후보 집합 중에서 TRUE 모델을 찾으려고 시도합니다. 나는 연구원들이 그 길을 따라 구축 한 모델 중 하나에서 현실이 인스턴스화되었다는 가정이 매우 이상하다는 것을 알았습니다. 이것은 BIC의 실제 문제입니다.

그럼에도 불구하고 모델 복구 시뮬레이션을 논증으로 사용하여 BIC가 AIC보다 낫다고 말하는 많은 연구자들이 있습니다. 이 시뮬레이션은 모델 A와 B에서 데이터를 생성 한 다음 두 데이터 세트를 두 모델에 맞추는 것으로 구성됩니다. 과적 합은 잘못된 모델이 생성보다 데이터에 더 적합 할 때 발생합니다. 이러한 시뮬레이션의 요점은 AIC와 BIC가 이러한 과적 합을 얼마나 잘 수정하는지 확인하는 것입니다. 일반적으로 결과는 AIC가 너무 자유롭고 종종 더 단순하고 실제 모델보다 더 복잡하고 잘못된 모델을 선호한다는 사실을 지적합니다. 언뜻보기에 이러한 시뮬레이션은 실제로 좋은 논증 인 것처럼 보이지만 AIC에는 의미가 없다는 점이 문제입니다. 앞서 말했듯이 AIC는 테스트중인 후보 모델이 실제로 사실이라고 생각하지 않습니다. AIC에 따르면 모든 모델은 현실에 대한 근사치이며 현실은 절대로 차원이 낮아서는 안됩니다. 적어도 일부 후보 모델보다 낮습니다.

AIC와 BIC를 모두 사용하는 것이 좋습니다. 대부분의 경우 선호 모델에 동의하지 않을 경우보고 만하면됩니다.

AIC와 BIC 모두에 만족하지 않고 투자 할 자유 시간이 있다면 AIC와 BIC의 한계를 극복하는 완전히 다른 접근법 인 최소 설명 길이 (MDL)를 찾아보십시오. 정규화 된 최대 우도 또는 Fisher 정보 근사와 같은 MDL에서 비롯된 몇 가지 조치가 있습니다. MDL의 문제는 수학적으로 까다 롭고 계산적으로 집중적이라는 것입니다.

그럼에도 불구하고 간단한 솔루션을 고수하려는 경우 모델 유연성을 평가하는 좋은 방법 (특히 매개 변수 수가 같고 AIC 및 BIC를 쓸모 없게하는 경우)은 파라 메트릭 부트 스트랩을 수행하는 것입니다. 이는 구현하기 매우 쉽습니다. 여기 에 종이에 대한 링크 가 있습니다.

여기에있는 일부 사람들은 교차 검증 사용을 옹호합니다. 나는 개인적으로 그것을 사용하고 그것에 대해 아무것도 가지고 있지 않지만 그것에 대한 문제는 샘플 절단 규칙 (leave-one-out, K-fold 등) 중에서 선택할 수 없다는 것이 원칙입니다.


7
차이 순수한 수학적 관점에서 볼 수 - BIC 로그 P의 점근 팽창으로 파생 사실 모델 파라미터가 임의데도 전에 소멸되지 따른 샘플링 (데이터)이, AIC 마찬가지로 고정 유지 진정한 매개 변수를 산출 하였다
야로 Bulatov

4
"모델 복구 시뮬레이션을 인수로 사용하여 BIC가 AIC보다 낫다고 말하는 많은 연구자들이 있습니다. 이러한 시뮬레이션은 모델 A와 B에서 데이터를 생성 한 다음 두 데이터 세트를 두 모델에 맞추는 것으로 구성됩니다." 참고 문헌을 지적하기에 친절합니까? 나는 그들에 대해 궁금하다! :)
deps_stats

2
나는이 포스트의 진술을 믿지 않는다.
user9352

16
(-1) 대단한 설명이지만 어설 션에 이의를 제기하고 싶습니다. @Dave Kellen TRUE 모델이 BIC를위한 세트에 있어야한다는 아이디어를 언급 해 주시겠습니까? 이 책 에서 저자는 이것이 사실이 아니라는 설득력있는 증거를 제공하기 때문에 이것에 대해 조사하고 싶습니다 .
gui11aume

2
큰 대답이지만 "현실은 절대 차원이 낮아서는 안된다"는 말에 강력하게 동의하지 않습니다. 이것은 당신이 yoru 모델을 어떤 "과학"에 적용 하느냐에 달려 있습니다
David

76

AIC와 BIC는 모두 최대 우도 추정치 이며 과적 합에 대항하기 위해 자유 매개 변수에 불이익을 주지만, 행동이 크게 다른 방식으로 그렇게합니다. 일반적으로 제시되는 방법의 한 가지 버전 (정규 분포 오류 및 기타 잘 작동하는 가정을 형성하는 결과)을 살펴 보겠습니다.

  • AIC = -2 * ln (우도) + 2 * k,

  • BIC = -2 * ln (우도) + ln (N) * k,

어디:

  • k = 모델 자유도
  • N = 관측치 수

그룹에서 가장 좋은 모델은 두 경우 모두 이러한 점수를 최소화하는 모델입니다. 분명히 AIC는 샘플 크기에 직접 의존하지 않습니다. 또한 일반적으로 말하면 AIC는 과잉 적합 할 수있는 위험을 제시하는 반면 BIC는 자유 매개 변수 (AIC에서 2 * k; BIC에서 ln (N) * k)를 처벌하는 방식 때문에 적합하지 않을 위험을 나타냅니다. 대화식으로, 데이터가 도입되고 점수가 재 계산 될 때, 상대적으로 낮은 N (7 이하)에서 BIC는 AIC보다 자유 매개 변수에 대해 더 관대하지만 높은 N에서는 (N의 자연 로그가 2를 극복하므로) 더 관대하지 않습니다.

또한 AIC는 예상되는 추정 KL 발산 을 최소화하여 알려지지 않은 데이터 생성 프로세스에 가장 적합한 근사 모델을 찾는 것을 목표로합니다 . 따라서 실제 모델로 확률 적으로 수렴하지 못하고 (평가 된 그룹에 모델이 있다고 가정) BIC는 N이 무한대 인 것처럼 수렴합니다.

따라서 많은 방법 론적 질문에서와 같이 선호되는 것은 수행하려는 작업, 사용 가능한 다른 방법 및 설명 된 기능 (수렴, 자유 매개 변수에 대한 상대 허용 오차, 예상 KL 발산 최소화)에 따라 다릅니다. ), 목표를 말하십시오.


8
|t|>2|t|>log(n)

2
좋은 대답, +1 특히 실제 모델이 실제로 평가 된 그룹에 있는지 여부에 대한주의 사항이 좋습니다. "진정한 모델"은 존재 하지 않는다고 주장합니다 . (Box & Draper는 "모든 모델은 허위이지만 일부 모델은 유용하다"고 번햄 앤 앤더슨은 이것을 "테이퍼링 효과 크기"라고 부릅니다. 우리가 실제로 본 모델들 중 가장 근사치입니다.
Stephan Kolassa 2011

68

내 빠른 설명은

  • AIC는 교차 검증과 동일하게 예측되므로 예측에 가장 적합합니다.
  • BIC는 기본 데이터 생성 프로세스를 일관되게 평가할 수 있으므로 설명에 가장 적합합니다.

AIC는 K- 폴드 교차 검증에 해당하고 BIC는 leve-one-out 교차 검증에 해당합니다. 그럼에도 불구하고 두 정리 는 선형 회귀의 경우 에만 유지 됩니다 .

5
mbq, 그것은 AIC / LOO (LKO 또는 K- 폴드가 아님)이며 Stone 1977의 증거가 선형 모델에 의존한다고 생각하지 않습니다. 나는 BIC 결과의 세부 사항을 모른다.
ars

11
ars가 맞습니다. AIC = LOO 및 BIC = K-fold입니다. 여기서 K는 표본 크기의 복잡한 함수입니다.
Rob Hyndman

축하합니다. 나는 서둘러 글을 썼기 때문에이 오류를 만들었습니다 .Rob가 쓴 방식입니다. 그럼에도 불구하고 그것은 Shao 1995에서 왔으며, 모델이 선형이라고 가정했습니다. 저는 Stone을 분석 할 것입니다. 여전히 당신의 주장에 따르면, 저는이 분야의 LOO가 다양한 * IC로서 평판이 좋지 않기 때문에 옳습니다.

Wikipedia ( en.wikipedia.org/wiki/… ) 에 대한 설명은 K- 폴드 교차 검증이 매개 변수의 안정성을 평가하기위한 반복 시뮬레이션과 같은 것으로 보입니다. LOO로 AIC가 안정적 일 것으로 예상되는 이유를 볼 수 있지만 (LOO는 철저하게 철저하게 수행 될 수 있기 때문에) K가 철저하지 않으면 BIC가 K- 폴드로 안정된 이유를 이해할 수 없습니다. K 값의 기본이되는 복잡한 공식이 철저한가? 아니면 다른 일이 일어나고 있습니까?
russellpierce

16

내 경험상, BIC는 예측 차질을 극대화하는 것이 목표 일 때 심각한 언더 피팅을 초래하고 AIC는 일반적으로 성능이 우수합니다.


1
초 지연이지만 Google에서 여전히 순위가 높기 때문에 현재 작업중인 영역을 자세히 설명 하시겠습니까? 우리가 살펴 봐야 할 도메인의 영향이 있는지 궁금합니다.
verybadatthis

@verybadatthis : 임상 생물 통계학 (Google "Frank Harrell", 그는 웹에 있음)
Ben Bolker

13

Brian Ripley의 AIC 및 BIC에 대한 정보를 제공하고 액세스 가능한 "파생"은 여기에서 찾을 수 있습니다. http://www.stats.ox.ac.uk/~ripley/Nelder80.pdf

Ripley는 수학적 결과의 배후에있는 가정에 대해 언급합니다. Ripley는 다른 답변 중 일부가 나타내는 것과는 달리 AIC는 모델이 참이라고 가정하고 있다고 강조합니다. 모형이 참이 아닌 경우 일반 계산에서는 "매개 변수 수"가 더 복잡한 수량으로 대체되어야 함을 알 수 있습니다. 일부 참고 문헌은 Ripleys 슬라이드에 나와 있습니다. 그러나 선형 회귀 (알려진 분산으로 말하면)의 경우 일반적으로 더 복잡한 양은 모수의 수와 동일하게 단순화됩니다.


3
(+1) 그러나 Ripley는 모델을 중첩해야한다고 말한 지점에서 잘못되었습니다. Akaike의 원래 파생에 대해서는 이러한 제한이 없으며 AIC를 Kullback-Leibler 분기의 추정값으로 사용하는 파생에 대해서는 명확하지 않습니다. 사실, 내가 연구하고있는 논문에서, AIC가 공분산 구조의 모델 선택 (다른 수의 모수, 명확하게 중첩되지 않은 모델)에도 사용될 수 있다는 것을 "임시적으로"보여줍니다. 다른 공분산 구조로 실행 한 수천 개의 시계열 시뮬레이션에서 AIC가 잘못한 것은 없습니다.
Néstor

... "올바른"모델이 실제로 모델 세트에있는 경우 (그러나 이는 또한 내가 작업중인 모델의 경우 추정기의 분산이 매우 작다는 것을 의미합니다. 세부 묘사).
Néstor

1
@ Néstor, 동의합니다. 중첩되는 모델에 대한 요점이 이상합니다.
NRH

3
종단 데이터 (혼합 효과 모델 또는 일반화 된 최소 제곱)에 대한 공분산 구조를 선택할 때 AIC는 후보 구조가 3 개 이상인 경우 잘못된 구조를 쉽게 찾을 수 있습니다. 3보다 많은 경우 부트 스트랩 또는 다른 수단을 사용하여 구조를 선택하기 위해 AIC를 사용하여 발생하는 모델 불확실성을 조정해야합니다.
Frank Harrell

8

실제로 유일한 차이점은 BIC가 AIC로 확장되어 많은 객체 (샘플)를 고려한다는 것입니다. 나는 둘 다 상당히 약하지만 (예 : 교차 유효성 검사와 비교하여) AIC를 사용하는 것이 더 낫습니다. 많은 사람들이 약어에 익숙 할 것입니다. 나는 여전히 그런 기준이 효과가없는 문제에 편견이 있다는 것을 인정한다.

편집 : AIC와 BIC는 두 가지 중요한 가정, 즉 모델이 최대 우도 일 때와 훈련 데이터에 대한 모델 성능에만 관심이있는 경우 두 가지 중요한 가정을 제공하는 교차 검증과 동일합니다. 일부 데이터를 어떤 종류의 합의로 축소시키는 경우 완벽하게 괜찮습니다.
실제 문제에 대한 예측 기계를 만드는 경우 첫 번째는 거짓입니다. 훈련 세트는 처리중인 문제에 대한 정보 스크랩 만 나타내므로 모델을 최적화 할 수 없습니다. 두 번째는 거짓입니다. 모델이 훈련 세트가 대표적이라고 기대할 수없는 새로운 데이터를 처리 할 것으로 예상하기 때문입니다. 그리고이를 위해 CV가 발명되었습니다. 독립적 인 데이터에 직면했을 때 모델의 동작을 시뮬레이션합니다. 모델 선택의 경우 CV는 품질 근사치뿐만 아니라 품질 근사 분포도 제공하므로 "새로운 데이터가 나올지 모를 수 있습니다. 보다 나은."


이는 특정 샘플 크기에서 BIC가 AIC보다 덜 엄격 할 수 있음을 의미합니까?
russellpierce

1
엄격함은 여기서 가장 좋은 단어가 아니라 매개 변수에 더 관대합니다. 그래도 yup, 일반적인 정의 (자연 로그 포함)의 경우 7 개 이하의 개체에서 발생합니다.

AIC는 교차 검증과 동일합니다.
Rob Hyndman 1

5
@mbq-교차 검증이 "비 대표성"문제를 어떻게 극복하는지 알 수 없습니다. 교육 데이터가 향후 수신 할 데이터를 대표하지 않는 경우 원하는 모든 것을 교차 검증 할 수 있지만 실제로 직면하게 될 "일반화 오류"( " true "새 데이터는 교육 데이터의 모델링되지 않은 부분으로 표시되지 않습니다). 좋은 예측을하려면 대표 데이터 세트를 얻는 것이 중요합니다.
chanceislogic

1
@mbq-내 요점은 문제를 해결하지 않는 대안을 기반으로 IC 기반 선택을 "신속하게 거부"하는 것입니다. 교차 유효성 검사는 훌륭하지만 (계산할 가치가 있더라도) 대표성이없는 데이터는 데이터 기반 프로세스를 사용하여 처리 할 수 ​​없습니다. 적어도 확실하지 않습니다. 비 대표적인 방법 (또는 일반적으로 "대표하지 않은"데이터가 관찰 할 실제 미래 데이터와의 논리적 연결)을 알려주는 사전 정보가 필요합니다.
chanceislogic

5

앞에서 언급했듯이 AIC 및 BIC는 더 많은 회귀 변수를 갖는 모델에 불이익을주는 방법입니다. 모델에서 매개 변수 수의 함수 인 페널티 함수가 이러한 방법에 사용됩니다.

  • AIC를 적용 할 때 페널티 함수는 z (p) = 2 p 입니다.

  • BIC를 적용 할 때, 페널티 함수는 z (p) = p ln ( n )이며, 이는 이전 정보 (따라서 베이지안 정보 기준 (Bayesian Information Criterion)이라는 이름)에서 파생 된 페널티를 해석하는 것을 기반으로합니다.

n이 큰 두 모델은 매우 다른 결과를 생성합니다. 그런 다음 BIC는 복잡한 모델에 훨씬 큰 페널티를 적용하므로 AIC보다 간단한 모델로 이어질 것입니다. 그러나 BIC의 Wikipedia에 명시된 바와 같이 :

많은 애플리케이션에서 BIC는 관심 모델에 대해 매개 변수 수가 동일하므로 최대 가능성 선택으로 간단히 줄어 듭니다.


4
치수가 변경되지 않는 경우 AIC는 ML과 동일합니다. 귀하의 답변은 이것이 BIC에만 해당되는 것처럼 보입니다.
chanceislogic

5

내가 알 수 있듯이 AIC와 BIC 사이에는 큰 차이가 없습니다. 그것들은 모델을 효율적으로 비교하기 위해 수학적으로 편리한 근사치 입니다. 서로 다른 "최상의"모델을 제공하는 경우 모델 불확실성이 높을 수 있습니다. 이는 AIC를 사용해야하는지 아니면 BIC을 사용해야하는지보다 걱정하는 것이 더 중요합니다. 나는 개인적으로 BIC를 더 좋아합니다. 모델에 더 많은 (더 적은) 데이터가 매개 변수에 맞는지 묻기 때문에-학생이 더 많은 (더 적은) 성능을 요구하면 더 높은 (낮은) 성능 표준을 요구하는 교사와 같습니다. ) 주제에 대해 배울 시간. 나에게 이것은 직관적 인 일처럼 보입니다. 그러나 간단한 형식을 감안할 때 AIC에 대해서도 똑같이 직관적이고 강력한 주장이 존재한다고 확신합니다.

이제 당신이 근사를 할 때마다 그 근사치가 쓰레기 일 때 어떤 조건이있을 것입니다. 이것은 원래 근사를 나쁘게 만드는 특정 조건을 설명하기 위해 많은 "조정"(AICc)이 존재하는 AIC에서 확실히 볼 수 있습니다. Zellner g-prior의 혼합물에 대한 완전 라플라스 근사치 (BIC는 적분에 대한 라플라스 근사법에 대한 근사치)와 같은 다양한 더 정확한 (그러나 여전히 효율적인) 방법이 존재하기 때문에 BIC에도 존재합니다.

둘 다 허비되는 곳은 주어진 모델 내의 매개 변수에 대한 실질적인 사전 정보가있을 때입니다. AIC 및 BIC는 데이터로부터 파라미터를 추정해야하는 모델과 비교하여 파라미터가 부분적으로 알려진 모델에 불필요하게 불이익을가합니다.

P(D|M,A)P(M|D,A)MMA

Mi:the ith model is the best description of the dataA:out of the set of K models being considered, one of them is the best

그런 다음 동일한 확률 모델 (동일한 매개 변수, 동일한 데이터, 동일한 근사 등)을 계속 할당하면 동일한 BIC 값 집합을 얻게됩니다. 논리 문자 "M"에 일종의 독특한 의미를 부여하는 것만으로 "진정한 모델"( "진정한 종교"의 메아리)에 대한 관련이없는 질문에 빠지게됩니다. M을 "정의"하는 유일한 것은 계산에 그것을 사용하는 수학적 방정식입니다. 그리고 이것은 단 하나의 정의를 거의 찾아 낼 수 없습니다. 나는 M에 대한 예측 제안을 똑같이 넣을 수 있었다 ( "i 번째 모델이 최상의 예측을 줄 것이다"). 개인적으로 이것이 어떻게 가능성을 바꾸는 지 알 수 없으므로 BIC가 얼마나 좋거나 나쁜지 (AIC도 다른 파생물을 기반으로하지만)

게다가, 진술의 문제점 실제 모델이 고려중인 세트에 있다면, 모델 B 일 가능성은 57 % 입니다. 나에게 충분히 합리적으로 보이거나, 더 "부드러운"버전으로 갈 수있을 것 입니다. 모델 B가 고려중인 세트 중에서 최고 일 확률은 57 %입니다.

마지막 의견 : AIC / BIC에 대해 아는 사람들이있는만큼 AIC / BIC에 대한 의견이 많이있을 것입니다.


4

AIC는 실제로 무증상으로 만 유효하므로 거의 사용하지 않아야합니다. 그것은 거의 항상 더 나은 (A와 AIC AICC를 사용하는 것입니다 C의 유한 표본 크기에 대한 orrection). AIC는 매개 변수를 과도하게 사용하는 경향이 있습니다. AICc를 사용하면 문제가 크게 줄어 듭니다. AICc 사용에 대한 주요 예외는 기본 분포가 심하게 leptokurtic 일 때입니다. 이에 대한 자세한 내용은 Burnham & Anderson의 Model Selection 책을 참조하십시오 .


1
따라서 AIC는 매개 변수에 대한 모델을 충분히 처벌하지 않으므로 기준으로 사용하면 매개 변수가 초과 될 수 있습니다. 대신 AICc를 사용하는 것이 좋습니다. BIC이 이미 AIC보다 엄격하기 때문에 초기 질문과 관련하여 이것을 다시 넣으려면 BIC보다 AICc를 사용해야하는 이유가 있습니까?
russellpierce

1
AIC의 의미는 무의식적으로 유효합니다. John Taylor가 지적한 것처럼 AIC는 일관성이 없습니다. 나는 AIC와 BIC를 대조하는 그의 coomments가 가장 좋은 것이라고 생각합니다. 두 가지가 교차 유효성 검사와 동일하지 않습니다. 그들은 모두 최대 변수 수보다 적은 모델에서 일반적으로 피크라는 좋은 속성을 가지고 있습니다. 그러나 그들은 모두 다른 모델을 선택할 수 있습니다.
Michael Chernick

4

AIC 및 BIC는 모델을 비교하기위한 정보 기준입니다. 각각은 모델 적합과 parsimony의 균형을 맞추려고 시도하고 매개 변수 수에 따라 다르게 벌점을줍니다.

AIC=2k2ln(L)
kL2ln(L)2k

BIC=kln(n)2ln(L)

KIC에 대해 들어 보지 못했습니다.


KIC에 대해 들어 본 적이 없지만 AIC 및 BIC의 경우 관련 질문을 보거나 AIC를 검색하십시오. stats.stackexchange.com/q/577/442
Henrik

1
(이 회신은 "KIC"에 대한 해석을 요청한 중복 질문에서 병합되었습니다.)
whuber

3
AIC 또는 BIC와 비교하기 위해 모델을 중첩 할 필요는 없습니다.
매크로

1

아주 간단히 :

  • n
  • P(D|M,A)(D=Data,M=model,A=assumptions)P(M|D,A)nnk=n[11/(log(n)1)]n=샘플 크기 (Shao 1997). BIC에는 여러 가지 버전이 있지만 한계 가능성에 대한 다른 근사치를 만들거나 다른 이전을 가정합니다. 예를 들어, 원래의 BIC에서와 같이 가능한 모든 모델의 사전 유니폼을 사용하는 대신 EBIC는 고정 된 크기의 모델의 이전 유니폼을 사용하는 반면 ( Ben & Chen 2008 ) BICq는 포함 할 각 매개 변수의 사전 확률을 지정하는 Bernouilli 분포를 사용합니다 .

lambda=2lambda=log(n)여기서, 하나의 목표 (LASSO 또는 탄성 그물 회귀)를 최적화 한 후 다른 목표 (예를 들어 교차 검증 예측 오차, AIC 또는 BIC를 최소화)에 기초한 정규화 파라미터 (들)의 튜닝이 뒤 따른다.

n1n

LOOCV 오차는 실제로 교차 검증을 수행 할 필요없이 모자 행렬 의 잔차와 대각선 으로부터 분석적 으로 계산 될 수 있습니다 . 이것은 LOOCV 오류의 점근 적 근사값으로 항상 AIC의 대안입니다.

참고 문헌

Stone M. (1977) 교차 검증 및 Akaike의 기준에 의한 모델 선택의 점근 적 동등성. 왕립 통계 학회지 시리즈 B. 39, 44–7.

Shao J. (1997) 선형 모델 선택에 대한 점근 론. Statistica Sinica 7, 221-242.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.