모델 선택의 역설 (AIC, BIC, 설명 또는 예측?)


18

Galit Shmueli의 "설명하거나 예측하다" (2010) 를 읽은 나는 명백한 모순에 의아해한다. 세 가지 전제가 있습니다

  1. AIC 대 BIC 기반 모델 선택 (300 페이지의 끝-301 페이지의 시작) : 간단히 말해 AIC는 예측 을위한 모델을 선택하는 데 사용되고 BIC는 설명을 위한 모델을 선택하는 데 사용해야합니다 . 또한 (위의 논문에서는 제외) 일부 조건에서 BIC 가 후보 모델 세트 중에서 실제 모델을 선택한다는 것을 알고 있습니다 . 진정한 모델은 우리가 설명 적 모델링에서 추구하는 것입니다 (p. 293의 끝).
  2. 간단한 산술 : AIC는 크기가 8 이상인 샘플에 대해 BIC보다 더 큰 모델 을 선택합니다 AIC와 BIC의 복잡도 차이로 인해 만족 ).ln(n)>2
  3. "true"를 모델 (올바른 회귀하고 올바른 함수 형태하지만 불완전 추정 계수 즉, 모델) 예측을위한 최적의 모델이 될 수 없습니다 (P 307.) : 누락 된 예측과 회귀 모델은 더 나은 예측 모델이 될 수 있습니다 -예측 불확실성으로 인한 분산 감소로 인해 누락 된 예측 변수로 인한 편향의 도입이 가중치를 초과 할 수 있습니다.

포인트 1과 2는 더 큰 모델이 더 포용적인 모델보다 예측에 더 좋을 수 있다고 제안합니다. 한편, 포인트 3 은 더 큰 모델보다 예측이 더 나은 모델이 더 나은 반대의 예를 제공합니다 . 나는이 수수께끼를 발견한다.

질문 :

  1. 점들 사이의 명백한 모순은 어떻게 {1. 그리고 2.}와 3.는 설명 / 해결 되었는가?
  2. 포인트 3에 비추어, AIC가 선택한 더 큰 모델이 실제로 BIC가 선택한 더 웅장한 모델보다 예측에 더 나은 이유와 방법에 대한 직관적 인 설명을 제공 할 수 있습니까?

2
역설 / 모순이 없습니다. AIC는 효율적이며 (예상 적으로 예상되는 예측 오류를 최소화) BIC는 일관됩니다 (무 순서에서 실제 순서를 선택 함). 포인트 3)은 편차에 의해 바이어스가 가중치를 초과 할 수 있다고 말합니다. 특정 샘플에서 하나가 다른 것보다 낫다는 보장은 없습니다. 따라서 당신의 "역설"은 주어진 샘플에 대해 AIC가 예측에 가장 적합하지 않을 수 있습니다. Q2의 경우 : BIC의 더 작은 모델로 인한 바이어스 증가가 AIC의 더 큰 분산 증가보다 클 경우 AIC가 더 좋습니다.
hejseb

2
Nils Hjort와 Gerda Claeskens의 "모델 선택 및 모델 평균"의 첫 번째 장을 살펴 보는 것이 좋습니다.
hejseb

답변:


1

그것들은 같은 맥락에서 취해지지 않아야한다. 포인트 1과 2는 다른 맥락을 가지고 있습니다. AIC와 BIC 모두 먼저 숫자가 가장 좋은 지수를 산출하는 매개 변수 조합을 탐색합니다 (일부 저자는 단어 색인을 사용할 때 간질에 적합합니다)이 맥락에서. 이를 무시하거나 사전에서 색인을 찾아보십시오.) 포인트 2에서 AIC는 더 풍부한 모델입니다. 여기서 더 풍부한 것은 더 많은 매개 변수를 가진 모델을 선택하는 것을 의미합니다. 종종 최적의 AIC 모델은 BIC와 동일한 수의 매개 변수 모델이므로 선택. 즉, AIC 및 BIC가 동일한 수의 파라미터를 갖는 모델을 선택하는 경우, AIC가 BIC보다 예측에 더 우수 할 것이라는 주장이있다. 그러나, 더 적은 수의 매개 변수 모델이 선택된 상태에서 BIC가 최대 값을 초과하면 반대의 상황이 발생할 수 있습니다 (그러나 보장 할 수는 없습니다). Sober (2002)는 AIC가 예측 정확도를 측정하는 반면 BIC는 적합도를 측정한다고 결론지었습니다. 예측 정확도는 x의 극단적 인 값 범위를 벗어난 y를 예측하는 것을 의미 할 수 있습니다. 밖에있을 때는 약한 예측 매개 변수가 누락 된 최적이 아닌 AIC는 선택한 모델의 더 많은 매개 변수에서 최적의 AIC 지수보다 외삽 된 값을 더 잘 예측하는 경우가 많습니다. 필자는 AIC와 ML이 모델에 대한 별도의 테스트 인 외삽 오류 테스트를 필요로하지 않는다고 언급했다. 이는 "훈련"세트에서 극한 값을 보류하고 외삽 된 "사후 훈련"모델과 보류 된 데이터 사이의 오류를 계산하여 수행 할 수 있습니다.

이제 BIC는 x 범위의 극한 값 내에서 y 값의 오류 예측기가 적을 것입니다 . 적합도의 향상은 종종 회귀의 편향 가격 (외삽의 경우)에서 발생하며,이 편향을 도입하면 오차가 줄어 듭니다. 예를 들어, 이것은 종종 평균 왼쪽 구절의 부호를 나누기 위해 경사를 평평하게 만듭니다.f(x)y잔차 (한쪽에 더 많은 음의 잔차가 있고 다른쪽에 더 많은 양의 잔차가 있다고 생각)에 따라 총 오차가 줄어 듭니다. 따라서이 경우 x 값이 주어지면 최상의 y 값을 요구하고 AIC의 경우 x와 y 사이의 최상의 기능적 관계를 더 밀접하게 요구합니다. 예를 들어, BIC (다른 매개 변수 선택이 동일 함)는 모델과 데이터 사이의 상관 계수가 더 좋으며 AIC는 주어진 외삽 된 x- 값에 대해 y- 값 오류로 측정 된 외삽 오차가 더 우수합니다.

포인트 3은 경우에 따라 때때로 진술합니다.

  • 데이터가 매우 시끄러울 때 (큰 );σ

  • 남은 매개 변수의 실제 절대 값 (이
    예에서는 )이 작을 때;β2

  • 예측 변수가 높은 상관 관계가있는 경우 과

  • 표본 크기가 작거나 남은 변수의 범위가 작은 경우

실제로, 방정식의 올바른 형태가 방정식에 적합하게되면 잡음으로 인해 올바른 매개 변수 값이 생성되고 메리 어가 많을수록 잡음이 커진다는 의미는 아닙니다. R 와 조정 된 R 및 높은 공선 성 에서도 마찬가지 입니다. 즉, 때때로 매개 변수가 추가되면 조정 된 R 는 저하되고 R 는 향상됩니다. 2222

나는이 진술들이 낙관적이라고 지적하고 싶다. 일반적으로 모델이 잘못되어 종종 더 나은 모델이 AIC 또는 BIC와 함께 사용할 수없는 표준을 적용하거나 적용에 잘못된 잔차 구조가 가정되며 대체 조치가 필요합니다. 내 작품에서 이것은 항상 그렇습니다.


1
당신이 질문에 대답하고 있는지 잘 모르겠습니다. 나는 정보 기준의 일반적인 한계를 알고 있지만 그것이 내가 요구하는 것은 아닙니다. 또한 AIC와 BIC에 동일한 수의 매개 변수가 있으면 AIC가 BIC보다 예측에 더 좋을 것이라는 주장이 있습니다 . 대안 모형이 동일한 수의 모수를 갖는 경우 AIC와 BIC 비교는 가능성을 비교하는 것으로 요약되며, AIC와 BIC는 모두 동일한 대안을 선택합니다. 더 나은 모델이 AIC 또는 BIC와 함께 사용할 수없는 규범을 강제 할 것이라는 의미를 구체화 할 수 있습니까?
Richard Hardy

계속 : 가능성과 자유도가있는 한 AIC와 BIC를 계산할 수 있습니다.
Richard Hardy

@RichardHardy True : 가능성과 자유도가있는 한 AIC와 BIC를 계산할 수 있습니다. 그러나 잔차가 Student's-T이고 Student's-T에 AIC 및 BIC를 사용하지 않은 경우 계산이 차선책이되고 오도 될 수 있습니다. Student's-T와 달리 ML이 게시 취소 될 수있는 잔차 분포가 있습니다 (예 : 감마, 베타 등)
Carl

명확하게 해 주셔서 감사합니다! 위의 질문에 대한 대답은 매우 간단하고 일반적이어야한다고 생각합니다. 더 구체적으로 말하면, "추악한"사례와 AIC 및 BIC의 실패를 포함 할 필요는 없다고 생각합니다. 반대로, 나는 역설이 실제가 아닌 단지 명백한 이유를 설명 할 수있는 다소 기본적인 사례가 있어야한다고 생각합니다. 동시에 두 번째 단락은 반대 방향으로 진행되는 것 같습니다. 그것은 그 자체로는 가치가 없을 것이 아니라, 그것이 우리가 실제 근본적인 질문에서 우리를 혼란스럽게 할 수 있다고 두려워합니다.
Richard Hardy

@RichardHardy 종종 실용적인 질문은 AIC에게 다루기 힘들다. 예를 들어, 서로 다른 규범 및 / 또는 데이터 변환을 통해 동일하거나 다른 모델을 비교하거나 복잡한 규범을 분석하는 경우 (예 : 파생 매개 변수의 Tikhonov 정규화 오류 감소, 일반적인 역수 등) AIC를 사용하지 않도록 언급해야합니다. , BIC가 잘못되었습니다.
Carl
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.