모델의 AIC (Akaike Information Criterion) 점수는 무엇을 의미합니까?

나는 평신도 용어의 의미에 대해 여기에 몇 가지 질문을 보았지만 이것들은 내 목적으로는 너무 평신도입니다. AIC 점수가 무엇을 의미하는지 수학적으로 이해하려고합니다.

그러나 동시에, 나는 더 중요한 요점을 보지 못하게하는 엄격한 증거를 원하지 않습니다. 예를 들어, 이것이 미적분학이라면, 나는 무한대에 만족할 것이고, 이것이 확률 이론이라면 측정 이론 없이도 행복 할 것입니다.

내 시도

여기 를 읽고 내 자신의 표기법 설탕 는 다음과 같이 데이터 세트 에 대한 모델 의 AIC 기준입니다 . 여기서 은 모델 의 매개 변수 개수 이고 는 데이터 세트 모델의 최대 우도 함수 값입니다 . $\text{AIC}_{m,D}$ $m$ $D$

{AIC}_{m, D} = 2 k_{m} - 2 \ln (L_{m, D})

$\text{AIC}_{m,D} = 2k_m - 2 \ln(L_{m,D})$

k_{m}

$k_m$

m

$m$

L_{m, D}

$L_{m,D}$

m

$m$

D

$D$

위의 내용에 대한 이해는 다음과 같습니다.

m = \underset{θ}{arg max} Pr (D | θ)

$m = \underset{\theta}{\text{arg max}\,} \Pr(D|\theta)$

이 방법:

$k_m$ 은 의 매개 변수 수입니다 $m$ .
$L_{m,D} = \Pr(D|m) = \mathcal{L}(m|D)$ 입니다.

이제 AIC를 다시 작성하겠습니다.

\begin{aligned} {AIC}_{m, D} = & 2 k_{m} - 2 \ln (L_{m, D}) \\ = & 2 k_{m} - 2 \ln (Pr (D | m)) \\ = & 2 k_{m} - 2 \log_{e} (Pr (D | m)) \end{aligned}

$\begin{split} \text{AIC}_{m,D} =& 2k_m - 2 \ln(L_{m,D})\\ =& 2k_m - 2 \ln(\Pr(D|m))\\ =& 2k_m - 2 \log_e(\Pr(D|m))\\ \end{split}$

분명히 $\Pr(D|m)$ 은 모델 에서 데이터 세트 를 관찰 할 확률입니다 . 더 나은 모델 그래서 데이터 세트에 맞는 , 더 큰 되고, 따라서 작은 용어 이된다. $D$ $m$ $m$ $D$ $\Pr(D|m)$ $-2\log_e(\Pr(D|m))$

따라서 AIC는 데이터 세트에 맞는 모델에 보상합니다 (작은 $\text{AIC}_{m,D}$ 가 더 낫기 때문에).

반면, 이라는 용어는 더 크게 하여 더 많은 매개 변수가있는 모델을 명확하게 처벌합니다 . $2k_m$ $\text{AIC}_{m,D}$

다시 말해, AIC는 다음과 같은 척도 인 것 같습니다.

정확한 모델 ( 더 잘 맞는 모델 )을 로그로 보상합니다 . 예를 들어 체력 증가가 에서 증가하는 것보다 체력 증가가 에서 증가 합니다. 아래 그림에 나와 있습니다. $D$ $0.4$ $0.5$ $0.8$ $0.9$
파라미터 감소를 선형 적으로 보상합니다. 그래서에서 매개 변수의 감소 에 이르기까지 가에서 감소 보상만큼 보상 아래로 . $9$ $8$ $2$ $1$

다시 말해, AIC는 단순성 의 중요성과 체력 의 중요성 간의 균형을 정의합니다 .

다시 말해 AIC는 다음과 같이 제안합니다.

체력의 중요성이 줄어 듭니다.
그러나 단순성의 중요성은 결코 줄어들지 않지만 항상 항상 중요합니다.

Q1 : 그러나 질문은, 왜 우리는이 특정 체력 단순성 상충 관계에 관심을 가져야합니까?

Q2 : 왜 이고 왜 ? 왜 그냥 : 즉, 은 y보기 여야합니다. 똑같이 유용 할 상대적으로 다른 모델을 비교를 위해 봉사 할 수 있어야한다 (단지로 확장 아니에요 ;? 우리가 필요합니까). $2k$ $2 \log_e(\ldots)$

\begin{aligned} {AIC}_{m, D} = & 2 k_{m} - 2 \ln (L_{m, D}) \\ = & 2 (k_{m} - \ln (L_{m, D})) \\ \frac{{AIC}_{m, D}}{2} = & k_{m} - \ln (L_{m, D}) \\ {AIC}_{m, D, SIMPLE} = & k_{m} - \ln (L_{m, D}) \end{aligned}

$\begin{split} \text{AIC}_{m,D} =& 2k_m - 2 \ln(L_{m,D})\\ =& 2(k_m - \ln(L_{m,D}))\\ \frac{\text{AIC}_{m,D}}{2} =& k_m - \ln(L_{m,D})\\ \text{AIC}_{m,D,\text{SIMPLE}} =& k_m - \ln(L_{m,D})\\ \end{split}$

{AIC}_{m, D, SIMPLE}

$\text{AIC}_{m,D,\text{SIMPLE}}$

{AIC}_{m, D}

$\text{AIC}_{m,D}$

2

$2$

Q3 : 이것은 정보 이론과 어떤 관련이 있습니까? 누군가 정보 이론적 인 출발점에서 이것을 이끌어 낼 수 있습니까?

— 동굴 탐험가
소스

의 표기법은 무엇을 의미합니까? 거기에 모델 선택에 대한 내용이 있습니까? 위의 내용이 AIC가 모델을 선택해야한다는 것을 의미하지는 않습니다. Q2는 당신이 말한 것처럼 임의의 의미가 있지만 AIC를 Kullback-Leibler 발산에 대한 추정치로 만듭니다 .Q1에 대한 답과 관련이 있으며 .

m = \arg max_{θ} P r (D | θ)

$m=\arg \max_\theta Pr(D|\theta)$

\exp (({AIC}_{m} - min ({AIC}_{1}, \dots, {AIC}_{M})) / 2)

$\exp((\text{AIC}_m-\min(\text{AIC}_1,\ldots,\text{AIC}_M))/2)$

— Björn

{arg max}_{θ} Pr (D | θ)

$\text{arg max}_{\theta} \Pr(D|\theta)$ 는 확률 를 최소화 할 때까지 많은 를 계속 찾는 것을 의미합니다 . 각 는 데이터 세트 를 설명하려는 모델을 정의하는 매개 변수의 튜플 / 벡터입니다 . 그래서 본질적으로는 말한다 : 우리는 데이터 세트가 , 그것은에 의해 매개 변수화 모델에 의해 생성 된 확률 것입니다 ? 우리의 모델 본질적으로 가 해결할 수있는 문제이 극대화 문제가 있습니다.

θ

$\theta$

Pr (D | θ)

$\Pr(D|\theta)$

θ

$\theta$

D

$D$

D

$D$

θ

$\theta$

m

$m$

θ

$\theta$

— 원시인

죄송합니다. 이므로 여러 모델을 살펴 보거나 최대 가능성 추정치에 대해 이야기하고 ? 또한 참고 지정된 모델에서 주어진 파라미터 데이터를 매개 변수화하는 모델이 생성 되었음이 확인되지 확률에 대해 제기 데이터 피난처 확률 .

m = \dots

$m=\ldots$

\hat{θ} := \arg max_{θ} P_{given model} (D | θ)

$\hat{\theta} := \arg\max_\theta P_\text{given model}(D|\theta)$

P_{given model} (D | θ)

$P_\text{given model}(D|\theta)$

θ

$\theta$

— Björn

MLE는 내가 의미하는 바입니다. 그러나 tuple 매개 변수 가 너무 포괄적이므로 모델을 정의 한다고 말하려고합니다 . 또한 다른 AIC 점수가 여러 모델 (예 : 가질 수 있습니다 . 나는 이것이 더 간단하다고 생각하기 때문에이 표기법을 만들고 있습니다. 정말 잘못되었거나 불필요하게 혼란 스럽습니까? (그리고 MLE의 의미에 대해 정정 해 주셔서 감사합니다)

θ

$\theta$

m_{1}, m_{2}

$m_1,m_2$

{AIC}_{1}, {AIC}_{2}

$\text{AIC}_1, \text{AIC}_2$

— 원시인

예상 KL 정보 손실에 대한 근사치로서 AIC의 도출은 Pawitan (2001), All Likelihood , Ch 13에 제공되어있다.

— Scortchi-Reinstate Monica

답변:

원시인 의이 질문은 인기가 있지만 논쟁의 여지 가있는 질문까지 몇 달 동안 시도 된 답변이 없었습니다 . 아래의 실제 답변은 그 자체로 논란의 여지가 없으며 단지 질문이 "로드"된 질문 일뿐일 수 있습니다. 왜냐하면 필드는 (적어도) AIC와 BIC의 acolytes에 의해 채워지는 것처럼 보이기 때문입니다. 서로의 방법보다 OLS. 나열된 모든 가정과 데이터 유형 및 분석 방법에 대한 제한 사항을보고 이에 대해 의견을 말하십시오. 이 문제를 해결하고 기여하십시오. 지금까지, 매우 똑똑한 사람들이 공헌 해 왔기 때문에 느리게 발전하고 있습니다. 저는 Richard Hardy와 GeoMatt22의 기여, Antoni Parellada의 친절한 말, Cagdas Ozgenc와 Ben Ogorek의 KL 발산을 실제 발산과 관련시키기위한 용감한 시도를 인정합니다.

시작하기 전에 AIC가 무엇인지 검토해 보겠습니다.이 중 하나는 AIC 모델 비교를위한 전제 조건 이고 다른 하나는 Rob J Hyndman의 것 입니다. 구체적으로, AIC는

2 k - 2 \log (L (θ)),

$2k - 2 \log(L(\theta))\,,$

여기서 는 모형의 모수 수이고 우도 함수입니다. AIC는 모델링 가정에서 분산 ( )과 치우침 ( ) 간의 균형을 비교합니다 . 에서 AIC의 현황과 착오 , 점 3 는 "AIC 그것은 가우스 가능성이 가장 자주 사용되는 단지이다. 잔차가 가우스 있다고 가정하지 않습니다.하지만 당신은 다른 배포판을 사용하려는 경우, 어서." AIC는이 둘 중 범 가능성이다 가능성 사용할 선택합니다. 예를 들어, Student's-t 분산 잔차에 대한 AIC를 해결하기 위해 Student's-t에 대해 최대 우도 솔루션을 사용할 수 있습니다 . 그만큼 $k$ $L(\theta)$ $2k$ $2\log(L(\theta))$ AIC에 일반적으로 적용되는 로그 우도 는 가우스 로그 우도 에서 파생 되며

\log (L (θ)) = - \frac{| D |}{2} \log (2 π) - \frac{1}{2} \log (| K |) - \frac{1}{2} (x - μ)^{T} K^{- 1} (x - μ),

$\log(L(\theta)) =-\frac{|D|}{2}\log(2\pi) -\frac{1}{2} \log(|K|) -\frac{1}{2}(x-\mu)^T K^{-1} (x-\mu),$

$K$ 는 모형의 공분산 구조입니다.샘플 크기; 데이터 세트의 관측치 수, 평균 반응 및 는 종속 변수입니다. 엄밀히 말하면 AIC가 데이터 크기를 비교하는 데 사용되지 않고 동일한 데이터 세트를 사용하는 모델 만 사용하기 때문에 AIC가 샘플 크기를 수정할 필요는 없습니다. 따라서 샘플 크기 보정이 올바르게 수행되는지 여부를 조사 할 필요는 없지만 데이터 집합간에 유용하도록 AIC를 일반화 할 수 있다면 이에 대해 걱정해야합니다. 유사하게, 점근 효율을 보장하기 위해 에 대해 많이 만들어진다 . 미니멀보기는 수도 만들기 "인덱스"AIC 그냥이라고 생각 $|D|$ $\mu$ $x$ $K>>|D|>2$ $K>|D|$ 관련 및관련이 없습니다. 그러나, 대해 변경된 AIC를 제안하는 형태로 보다 크지 않은 것에주의를 기울였다. AIC 라고 불리는 아래 Q2에 대한 답변의 두 번째 단락을 참조하십시오. 이러한 "측정"의 확산은 AIC가 지수라는 개념 만 강화합니다. 그러나 일부 AIC 옹호자들이 "i"단어를 사용할 때는주의해야합니다. 일부 AIC 옹호자들은 그들의 혼인을 외혼이라고 언급 할 때와 같은 애용으로 "index"라는 단어를 동일하게 사용합니다. $K>>|D|$ $K$ $|D|$ $_c$

Q1 : 그러나 질문은 : 왜 우리는이 특정 체력 단순성 상충 관계에 관심을 가져야합니까?

두 부분으로 답하십시오. 먼저 구체적인 질문입니다. 그것이 정의 된 방식이므로주의해야합니다. CIC를 정의하지 않을 이유가 없습니다. 원시인 정보 기준은 AIC가 아니지만 CIC는 AIC와 동일한 답변을 생성하지만 적합도 및 포지셔닝 단순성 간의 상충 관계에는 영향을 미치지 않습니다. 1 회를 포함하여 AIC 승수로 사용될 수있는 상수는 절대 스케일을 시행하기위한 참조 표준이 없기 때문에 선택하고 준수해야합니다. 그러나, AIC와 같이 상대적 척도로만 정의 된 수량에 대해 단 하나의 정의 또는 "컨벤션"에 대한 여지가 있다는 의미에서 표준 정의를 준수하는 것은 임의적이지 않습니다. 아래의 AIC 가정 # 3도 참조하십시오.

이 질문에 대한 두 번째 답변은 상수 곱셈기가 어떻게 선택되었는지에 관계없이 적합도와 포지셔닝 단순성 간의 AIC 트레이드 오프의 특성에 관한 것입니다. 즉, 실제로 "무역"에 어떤 영향을 미칩니 까? 이로 인해 영향을받는 것 중 하나는 모델의 매개 변수 수에 대한 자유도를 재조정하는 AIC 라는 "새로운"AIC 를 다음과 같이 정의 합니다. $_c$

\begin{aligned} A I C_{c} & = A I C + \frac{2 k (k + 1)}{n - k - 1} \\ = \frac{2 k n}{n - k - 1} - 2 \ln (L) \end{aligned},

$\begin{align}AIC_c &= AIC + \frac{2k(k + 1)}{n - k - 1}\\ &= \frac{2kn}{n-k-1} - 2 \ln{(L)}\end{align} \,,$

여기서 은 샘플 크기입니다. 매개 변수 수가 다른 모델을 비교할 때는 가중치가 약간 달라 AIC 는 AIC 자체와 다르게 모델을 선택하고 두 모델이 다르지만 동일한 수의 매개 변수를 갖는 경우 AIC와 동일하게 선택합니다. 다른 방법들도 모델을 다르게 선택할 것이다. 예를 들어 "BIC [sic, Bayesian 정보 기준 ]은 일반적으로 Akaike 정보 기준보다 자유 매개 변수에 더 큰 불이익을 준다." 매개 변수 값의 필수 요소가 다르고 일부 상황에서는 AIC 사용 보다 선호됩니다. $n$ $_c$ . 일반적으로 모델의 적합성을 평가하는 방법에는 장점과 단점이 있습니다. 내 조언은 모델 자체를 테스트하는 것보다 데이터 회귀 방법론에 적용하기 위해 모델 선택 방법의 성능을 테스트하는 것입니다. 의심 할만한 이유가 있습니까? 예, 방법 론적으로 적합한 방법을 선택하기 위해 모델 테스트를 구성하거나 선택할 때는주의를 기울여야합니다. AIC는 모델 평가의 하위 집합에 유용합니다 (다음 Q3 참조). 예를 들어, 모델 A를 사용하여 정보를 추출하는 것은 회귀 방법 1을 사용하고 회귀 방법 2를 사용하는 모델 B에 대해 가장 잘 수행 될 수 있습니다. 여기서 모델 B와 방법 2는 때때로 비 물리적 응답을 생성하고 회귀 방법이 MLR이 아닌 경우,

Q3이 정보 이론과 어떤 관련이 있습니까 방법 :

MLR 가정 # 1. AIC는 회귀 문제에 대한 최대 가능성 (MLR) 적용 가능성의 가정을 전제로합니다. 평범한 최소 제곱 회귀와 최대 가능성 회귀가 동일한 것으로 나에게 지적 된 상황은 하나뿐입니다. 이는 정규 최소 제곱 (OLS) 선형 회귀의 잔차가 정규 분포이고 MLR에 가우시안 손실 함수가있는 경우입니다. OLS 선형 회귀의 경우 비선형 OLS 회귀 및 비 가우시안 손실 함수의 경우 MLR과 OLS가 다를 수 있습니다. OLS 또는 MLR 이외의 많은 다른 회귀 목표가 있거나 적합도 및 종종 좋은 대답은 대부분의 역 문제에 대해 거의 관련이 없습니다.. 유사 가능성에 대해 일반화 AIC를 사용하려는 시도가 많이 제기되어 (예 : 1100 배) 최대 가능성 회귀에 대한 의존도가 완화되어보다 일반적인 손실 함수 를 허용 합니다 . 또한, 닫힌 형태는 아니지만 Student's-t에 대한 MLR은 강력하게 수렴 됩니다. Student-t 잔차 분포는 가우시안 조건을 포함 할뿐만 아니라 더 일반적이고 일반적이므로 AIC에 가우시안 가정을 사용해야하는 특별한 이유가 없습니다.

MLR 가정 # 2. MLR은 적합도를 정량화하려는 시도입니다. 때로는 적절하지 않은 경우에 적용됩니다. 예를 들어, 사용 된 모델이 트리밍되지 않은 트리밍 된 범위 데이터의 경우. 완벽한 정보 범위를 갖추면 적합도는 모두 훌륭합니다. 시계열에서는 일반적으로 물리적 이벤트가 처음에 발생하거나 모델이 초기 데이터를 조사하기에 충분하지 않을 수 있음을 완전히 이해하기에 충분한 정보가 없습니다. 더 큰 문제는 데이터 부족으로 인해 매우 늦은 시간에 적합도를 테스트 할 수 없다는 것입니다. 따라서 적합도는 곡선 아래에 맞는 면적의 30 % 만 모델링 할 수 있으며,이 경우 데이터의 위치를 기준으로 외삽 된 모델을 판단하고 있으며 그 의미를 조사하지 않습니다. 외삽하기 위해, 우리는 '금액'의 적합도뿐만 아니라 우리가 외삽 법의 "좋은 점"이없는 실패한 금액의 파생 상품도 검토해야합니다. 따라서, B- 스플라인과 같은 적합 기법은 도함수가 적합 할 때 데이터가 무엇인지, 또는 대안으로 역 문제 처리 (예를 들어, 오류 전파 적응 형 Tikhonov와 같은 전체 모델 범위에 걸쳐 잘못된 통합 처리)를보다 부드럽게 예측할 수 있기 때문에 사용을 찾습니다. 정규화.

또 다른 복잡한 문제는 데이터가 무엇을해야하는지 알려줄 수 있습니다. 적합도 (적절한 경우)를 위해 필요한 것은 표준 편차가 거리라는 의미에서 거리의 잔차를 갖는 것입니다. 즉, 단일 표준 편차의 두 배 길이의 잔차가 길이가 두 표준 편차가 아닌 경우 적합도는 의미가 없습니다. 모델 선택 / 회귀 방법을 적용하기 전에 데이터 변환 선택을 조사해야합니다. 데이터에 비례 유형 오류가있는 경우 일반적으로 회귀를 선택하기 전에 로그를 취하는 것은 표준 편차를 거리로 변환하므로 부적절하지 않습니다. 또는 비례 데이터에 적합하도록 표준을 최소화하도록 변경할 수 있습니다. 포아송 오류 구조에도 동일하게 적용됩니다. 우리는 데이터의 제곱근을 취하여 오류를 정규화하거나 피팅 표준을 변경할 수 있습니다. 예를 들어, 방사성 핵종 붕괴가 계수 데이터와 실제 질량 사이에 지수 적 시간 기반 연관성을 도입 할 때 핵 붕괴로부터의 포아송 계수 통계를 적용 할 수없는 경우 훨씬 더 복잡하거나 다루기 어려운 문제가 있습니다. 부패가 없었다면 그 수를 발산했습니다. 왜? 카운트 속도를 역으로 수정하면 더 이상 포아송 통계가없고 수정 된 카운트의 제곱근의 잔차 (또는 오류)가 더 이상 거리가 아닙니다. 그런 다음 부패 수정 데이터 (예 : AIC)에 대한 적합도 테스트를 수행하려면 겸손한 자에게 알려지지 않은 방식으로 수행해야합니다. MLR 사용을 고집한다면 독자에게 공개 질문 데이터의 오류 유형을 설명하기 위해 표준을 변경할 수 있습니까? (원하는) MLR 사용을 허용하도록 데이터를 항상 변환해야합니까? AIC는 단일 모델에 대한 회귀 분석 방법을 비교하지 않고 동일한 회귀 분석 방법에 대해 다른 모델을 비교합니다.

AIC 가정 # 1. 예를 들어 MLR과 Student's-t에 대한이 질문을 참조하십시오 . 다음으로 MLR이 문제에 적합하다고 가정하여 이론적으로 AIC 값을 비교하는 데 사용하는 것을 추적합니다. 우리는 가정 다음으로 1) 완전한 정보, 2) 예를 들어 잔차의 분포 (같은 종류의 두 정상 모두 Student's-이 그 t 적어도 2 개 모델을). 즉, 우리는 두 모델이 이제 잔차 분포 유형을 가져야한다는 사고를당했습니다. 그럴 수 있습니까? 그렇습니다.하지만 항상 그런 것은 아닙니다.

AIC 가정 # 2. AIC는 수량의 음의 로그 (모델의 파라미터 수를 Kullback-Leibler divergence로 나눈 값 )와 관련됩니다. 이 가정이 필요합니까? 에서 일반적인 손실 함수의 종이 다른 "발산"이 사용된다. 이로 인해 다른 측정이 KL 발산보다 더 일반적인 지에 대한 의문이 생길 수 있습니다. 왜 AIC에도 사용하지 않습니까?

Kullback-Leibler 발산 에서 AIC에 대해 일치하지 않는 정보 는 "... 확률 분포 사이의 거리를 측정하는 방법으로 종종 사용되지만 Kullback-Leibler 발산은 실제 측정 항목이 아닙니다." 우리는 왜 곧 알게 될 것입니다.

KL 인수는 모델 (P)과 데이터 (Q)의 두 가지 차이점이있는 지점에 도달합니다.

D_{K L} (P ‖ Q) = \int_{X} \log (\frac{d P}{d Q}) \frac{d P}{d Q} d Q,

$D_{\mathrm{KL}}(P\|Q) = \int_X \log\!\left(\frac{{\rm d}P}{{\rm d}Q}\right) \frac{{\rm d}P}{{\rm d}Q} \, {\rm d}Q \,,$

우리는 ''Q ''에 대한 ''P ''의 엔트로피로 인식합니다.

AIC 가정 # 3. Kullback-Leibler 분기와 관련된 대부분의 공식은 로그의 밑에 상관없이 유지됩니다. AIC가 한 번에 둘 이상의 데이터 세트와 관련되어있는 경우 상수 승수는 더 의미가있을 수 있습니다. 분석법을 비교할 때와 같이 이면 양수가 몇 번이고 여전히 입니다. 그것은 임의적이므로 정의의 문제로 상수를 특정 값으로 설정하는 것도 부적절하지 않습니다. $AIC_{data,model 1}<AIC_{data,model 2}$ $<$

AIC 가정 # 4. 그것은 AIC가 Shannon 엔트로피 또는 자기 정보를 측정한다는 것 입니다. "우리가 알아야 할 것은"정보의 측정에 필요한 엔트로피입니까? "입니다.

"자체 정보"가 무엇인지 이해하기 위해, 우리는 물리적 맥락에서 정보를 정상화하는 것이 우리에게 호소합니다. 예, 정보 측정에 물리적 인 속성이 있어야합니다. 더 일반적인 상황에서 어떻게 보일까요?

깁스 자유 에너지 방정식 ( $\Delta G = ΔH – TΔS$ )는 엔탈피 변화에서 엔트로피 변화의 절대 온도를 뺀 엔탈피의 변화와 에너지의 변화를 관련시킵니다. 온도는 성공적인 유형의 정규화 된 정보 내용의 예입니다. 열 차단 환경에서 하나의 핫 브릭과 하나의 콜드 브릭이 서로 접촉하면 열이 그들 사이에 흐르기 때문입니다. 우리가 너무 열심히 생각하지 않고 이것에 뛰어 들면 열은 정보라고 말합니다. 그러나 시스템의 동작을 예측하는 것은 상대적 정보입니다. 평형에 도달 할 때까지 정보가 흐르지 만 무엇의 평형? 온도, 그것은 특정 입자 덩어리의 입자 속도에서와 같이 열이 아닌 것입니다. 저는 분자 온도에 대해 이야기하고 있지 않습니다. 나는 다른 덩어리가 있고 다른 재료로 만들어졌으며 밀도가 다른 두 개의 벽돌의 총 온도에 대해 이야기하고 있습니다. 그 중 어느 것도 알아야 할 것은 없습니다. 총 온도가 평형을 이루는 것입니다. 따라서 하나의 벽돌이 더 뜨거우면 상대적 정보 내용이 많고 차가울수록 더 적습니다.

이제 한 벽돌이 다른 벽돌보다 엔트로피가 더 많다고 들으면 어떻게해야합니까? 그것은 그 자체로 다른 벽돌과 접촉 할 때 엔트로피를 얻거나 잃을 지 예측하지 않습니다. 그렇다면 엔트로피만으로도 유용한 정보를 측정 할 수 있습니까? 예, 그러나 동일한 벽돌을 자체와 비교하여 "자체 정보"라는 용어를 비교하는 경우에만 가능합니다.

그로부터 마지막 제한이 있습니다. KL 분기를 사용하려면 모든 브릭이 동일해야합니다. 따라서, AIC를 비정형 인덱스로 만드는 것은 정보 세트를 정규화하여 해결할 수있는 특히 바람직한 특성이 아닌 데이터 세트 (예를 들어, 다른 브릭)간에 이식성이 없다는 점이다. KL 발산은 선형입니까? 아마 그렇습니다, 아마 그렇습니다. 그러나 그것은 중요하지 않습니다. 우리는 AIC를 사용하기 위해 선형성을 가정 할 필요가 없으며, 예를 들어 엔트로피 자체는 온도와 선형 적으로 관련이 있다고 생각하지 않습니다. 즉, 엔트로피 계산을 사용하기 위해 선형 메트릭이 필요하지 않습니다.

AIC에 관한 좋은 정보원은이 논문에있다 . 비관적 인 측면에서 이것은 "그 자체로 주어진 데이터 세트에 대한 AIC의 가치는 의미가 없다"고 말합니다. 이것은 낙관적 측면에서, 결과가 가까운 모델을 스무딩하여 신뢰 구간 등을 설정하여 차별화 할 수 있다고 말합니다.

— 칼
소스

새 답변과 이전에 삭제 한 답변의 주요 차이점을 알려주시겠습니까? 약간의 중복이있는 것 같습니다.

— Richard Hardy

답변을 삭제하는 동안 몇 시간 동안 내 답변을 편집하는 중이었습니다. 진행중인 작업 이었기 때문에 시작했을 때와 비교했을 때 많은 변화가 있었으며, 많은 독서와 사고가 있었고,이 사이트의 동료들은 그것을 돌보지 않는 것처럼 보이지만 아무것도 대답하지 않습니다. AIC 그것은 비판적 검토에 너무 좋은 것 같습니다. 어떻게 감히합니까? 편집을 완료하고 다시 게시했습니다. 내 답변에 무엇이 잘못되었는지 알고 싶습니다. 나는 열심히 노력했고 진실성을 나타내려고 노력했지만 아무도 신경 쓰지 않았습니다.

— Carl

화 내지 마십시오. 여기에서의 나의 첫 경험 또한 실망 스러웠지만 나중에 적절한 방법으로 질문하는 법을 배웠습니다. 어려운 사실에 근거하지 않은 중립적 인 태도를 유지하고 강한 의견을 피하는 것이 좋은 첫 단계입니다 (IMHO). (어쨌든 나는 당신의 질문을 찬성했지만 여전히 대답에 대해 망설입니다.)

— Richard Hardy

+1 프리앰블 전용. 이제 답을 계속 읽겠습니다.

— Antoni Parellada

@AntoniParellada 질문을 삭제하지 않도록 도와 주셨습니다. AIC를 통한 작업은 어려웠으며 도움이 필요합니다. 내 통찰력 중 일부는 좋았지 만 입안의 발굽 질환도 있는데 다른 마음이 나보다 더 잘 잡을 수 있습니다.

— Carl

AIC 는 실제 분포 와 근사 파라 메트릭 모델 사이의 예상 Kullback-Leibler 발산에 대한 모델 중심 추가 항의 두 배로 추정 됩니다. $f$ $g$

KL 발산 은 정보 이론의 주제이며 두 확률 분포 사이의 거리 측정으로 직관적으로 (엄격하지는 않지만) 작동합니다. 아래 설명 에서 Shuhua Hu의 슬라이드 를 참조 하고 있습니다 . 이 답변에는 여전히 "핵심 결과"에 대한 인용이 필요합니다.

실제 모델 와 근사 모델 간의 KL 차이 는 $f$ $g_{\theta}$

d (f, g_{θ}) = \int f (x) \log (f (x)) d x - \int f (x) \log (g_{θ} (x)) d x

$d(f, g_{\theta}) = \int f(x) \log(f(x)) dx -\int f(x) \log(g_{\theta}(x)) dx$

진실을 알 수 없으므로, 데이터 는 에서 생성 되며 최대 가능성 추정값은 추정기 산출 합니다. 장착 와 KL 발산 식뿐만 아니라 KL 발산 자체에 두 번째 항은 현재 확률 변수 것을 의미 상기 식에서. 슬라이드의 "핵심 결과"는 대한 두 번째 덧셈 항의 평균은 가능성 함수 (MLE에서 평가됨)과 의 차원의 간단한 함수로 추정 할 수 있다는 것 입니다 . $y$ $f$ $\hat{\theta}(y)$ $\theta$ $\hat{\theta}(y)$ $y$ $L$ $k$ $\theta$

- E_{y} [\int f (x) \log (g_{\hat{θ} (y)} (x)) d x] \approx - \log (L (\hat{θ} (y))) + k .

$-\text{E}_y\left[\int f(x) \log(g_{\hat{\theta}(y)}(x)) \, dx \right] \approx -\log(L(\hat{\theta}(y))) + k.$

AIC는 위의 두 배 기대치 (HT @Carl)로 정의되며, 더 작은 (더 음수) 값은 실제 분포 와 모델링 된 분포 사이의 작은 추정 KL 분산에 해당합니다 . $f$ $g_{\hat{\theta}(y)}$

— 벤오고 렉
소스

아시다시피, 로그 우도에 적용될 때 이탈 이란 용어는 전문 용어가 아니며 정확하지 않습니다. AIC 차이가 선형성이 아닌 비교 가치를 갖기 위해서는 단 조성 만 필요하기 때문에 이것에 대한 논의를 생략했습니다. 그래서 나는 존재하지 않을 수도 있고 어쨌든 필요하지 않은 것을 "시각화"하기 위해 지나치게 열심히 노력하는 것과의 관련성을 보지 못합니다.

— Carl

마지막 단락에 빨간 청어가 추가된다는 요점을 알았으며 2 * x가 x와 동일하다는 것을 아무도 확신 할 필요가 없다는 것을 알고 있습니다. 수량에 "컨벤션"에 2를 곱했다고 말하는 것이 공정한가?

— Ben Ogorek

그런 것. 개인적으로, 나는 그것이 처음에 그렇게 선택 되었기 때문에 "정의 된 것"에 투표 할 것입니다. 또는 이것을 시간적 관점에서 말하자면, 스케일을 시행하기위한 참조 표준이 없기 때문에 한 번을 포함하여 사용될 수있는 상수가 선택되고 준수되어야 할 것입니다.

— Carl

첫 두 질문에 대한 간단한 관점은 AIC가 최대 우도 모델의 샘플 외부 오차율과 관련이 있다는 것입니다. AIC 기준은 관계 (통계학 학습 방정식 7.27의 요소) 여기서 표기법에 따라 은 최대 가능성 값이 인 모델 의 매개 변수 수입니다 .

- 2 E [\ln P r (D | θ)] \approx - \frac{2}{N} E [\ln L_{m, D}] + \frac{2 k_{m}}{N} = \frac{1}{N} E [{A I C}_{m, D}]

$-2 \, \mathrm{E}[\ln \mathrm{Pr}(D|\theta)] \approx -\frac{2}{N} \, \mathrm{E}[\ln L_{m,D}] + \frac{2k_m}{N} = \frac{1}{N} E[\mathrm{AIC}_{m,D}]$

k_{m}

$k_m$

m

$m$

L_{m, D}

$L_{m,D}$

왼쪽에있는 항 은 확률의 로그를 오류 메트릭으로 사용하여 최대 가능성 모델 샘플 외부 "오류"비율입니다 . -2 인자는 이탈을 구성하는 데 사용되는 전통적인 보정입니다 (특정 상황에서는 카이 제곱 분포를 따르기 때문에 유용함). $m = \{ \theta \}$

오른손은 최대화 된 로그 우도에서 추정 된 표본 내 "오류"비율과 최대 로그 우도 의 낙관론을 수정 하는 용어 으로 구성되며, 이는 데이터를 다소 과도하게 적합하게 만듭니다. $2k_m/N$

따라서 AIC는 샘플 외부 "오류"비율 (편차) 시간 의 추정치입니다 . $N$

— jwimberley
소스