원시인 의이 질문은 인기가 있지만 논쟁의 여지 가있는 질문까지 몇 달 동안 시도 된 답변이 없었습니다 . 아래의 실제 답변은 그 자체로 논란의 여지가 없으며 단지 질문이 "로드"된 질문 일뿐일 수 있습니다. 왜냐하면 필드는 (적어도) AIC와 BIC의 acolytes에 의해 채워지는 것처럼 보이기 때문입니다. 서로의 방법보다 OLS. 나열된 모든 가정과 데이터 유형 및 분석 방법에 대한 제한 사항을보고 이에 대해 의견을 말하십시오. 이 문제를 해결하고 기여하십시오. 지금까지, 매우 똑똑한 사람들이 공헌 해 왔기 때문에 느리게 발전하고 있습니다. 저는 Richard Hardy와 GeoMatt22의 기여, Antoni Parellada의 친절한 말, Cagdas Ozgenc와 Ben Ogorek의 KL 발산을 실제 발산과 관련시키기위한 용감한 시도를 인정합니다.
시작하기 전에 AIC가 무엇인지 검토해 보겠습니다.이 중 하나는 AIC 모델 비교를위한 전제 조건 이고 다른 하나는 Rob J Hyndman의 것 입니다. 구체적으로, AIC는
2k−2log(L(θ)),
여기서 는 모형의 모수 수이고 우도 함수입니다. AIC는 모델링 가정에서 분산 ( )과 치우침 ( ) 간의 균형을 비교합니다 . 에서 AIC의 현황과 착오 , 점 3 는 "AIC 그것은 가우스 가능성이 가장 자주 사용되는 단지이다. 잔차가 가우스 있다고 가정하지 않습니다.하지만 당신은 다른 배포판을 사용하려는 경우, 어서." AIC는이 둘 중 범 가능성이다 가능성 사용할 선택합니다. 예를 들어, Student's-t 분산 잔차에 대한 AIC를 해결하기 위해 Student's-t에 대해 최대 우도 솔루션을 사용할 수 있습니다 . 그만큼kL(θ)2k2log(L(θ))AIC에 일반적으로 적용되는 로그 우도 는 가우스 로그 우도 에서 파생 되며
log(L(θ))=−|D|2log(2π)−12log(|K|)−12(x−μ)TK−1(x−μ),
K 는 모형의 공분산 구조입니다.샘플 크기; 데이터 세트의 관측치 수, 평균 반응 및 는 종속 변수입니다. 엄밀히 말하면 AIC가 데이터 크기를 비교하는 데 사용되지 않고 동일한 데이터 세트를 사용하는 모델 만 사용하기 때문에 AIC가 샘플 크기를 수정할 필요는 없습니다. 따라서 샘플 크기 보정이 올바르게 수행되는지 여부를 조사 할 필요는 없지만 데이터 집합간에 유용하도록 AIC를 일반화 할 수 있다면 이에 대해 걱정해야합니다. 유사하게, 점근 효율을 보장하기 위해 에 대해 많이 만들어진다 . 미니멀보기는 수도 만들기 "인덱스"AIC 그냥이라고 생각|D|μxK>>|D|>2K>|D|관련 및관련이 없습니다. 그러나, 대해 변경된 AIC를 제안하는 형태로 보다 크지 않은 것에주의를 기울였다. AIC 라고 불리는 아래 Q2에 대한 답변의 두 번째 단락을 참조하십시오. 이러한 "측정"의 확산은 AIC가 지수라는 개념 만 강화합니다. 그러나 일부 AIC 옹호자들이 "i"단어를 사용할 때는주의해야합니다. 일부 AIC 옹호자들은 그들의 혼인을 외혼이라고 언급 할 때와 같은 애용으로 "index"라는 단어를 동일하게 사용합니다.K>>|D|K|D|c
Q1 : 그러나 질문은 : 왜 우리는이 특정 체력 단순성 상충 관계에 관심을 가져야합니까?
두 부분으로 답하십시오. 먼저 구체적인 질문입니다. 그것이 정의 된 방식이므로주의해야합니다. CIC를 정의하지 않을 이유가 없습니다. 원시인 정보 기준은 AIC가 아니지만 CIC는 AIC와 동일한 답변을 생성하지만 적합도 및 포지셔닝 단순성 간의 상충 관계에는 영향을 미치지 않습니다. 1 회를 포함하여 AIC 승수로 사용될 수있는 상수는 절대 스케일을 시행하기위한 참조 표준이 없기 때문에 선택하고 준수해야합니다. 그러나, AIC와 같이 상대적 척도로만 정의 된 수량에 대해 단 하나의 정의 또는 "컨벤션"에 대한 여지가 있다는 의미에서 표준 정의를 준수하는 것은 임의적이지 않습니다. 아래의 AIC 가정 # 3도 참조하십시오.
이 질문에 대한 두 번째 답변은 상수 곱셈기가 어떻게 선택되었는지에 관계없이 적합도와 포지셔닝 단순성 간의 AIC 트레이드 오프의 특성에 관한 것입니다. 즉, 실제로 "무역"에 어떤 영향을 미칩니 까? 이로 인해 영향을받는 것 중 하나는 모델의 매개 변수 수에 대한 자유도를 재조정하는 AIC 라는 "새로운"AIC 를 다음과 같이 정의 합니다.c
AICc=AIC+2k(k+1)n−k−1=2knn−k−1−2ln(L),
여기서 은 샘플 크기입니다. 매개 변수 수가 다른 모델을 비교할 때는 가중치가 약간 달라 AIC 는 AIC 자체와 다르게 모델을 선택하고 두 모델이 다르지만 동일한 수의 매개 변수를 갖는 경우 AIC와 동일하게 선택합니다. 다른 방법들도 모델을 다르게 선택할 것이다. 예를 들어 "BIC [sic, Bayesian 정보 기준 ]은 일반적으로 Akaike 정보 기준보다 자유 매개 변수에 더 큰 불이익을 준다." 매개 변수 값의 필수 요소가 다르고 일부 상황에서는 AIC 사용 보다 선호됩니다.nc. 일반적으로 모델의 적합성을 평가하는 방법에는 장점과 단점이 있습니다. 내 조언은 모델 자체를 테스트하는 것보다 데이터 회귀 방법론에 적용하기 위해 모델 선택 방법의 성능을 테스트하는 것입니다. 의심 할만한 이유가 있습니까? 예, 방법 론적으로 적합한 방법을 선택하기 위해 모델 테스트를 구성하거나 선택할 때는주의를 기울여야합니다. AIC는 모델 평가의 하위 집합에 유용합니다 (다음 Q3 참조). 예를 들어, 모델 A를 사용하여 정보를 추출하는 것은 회귀 방법 1을 사용하고 회귀 방법 2를 사용하는 모델 B에 대해 가장 잘 수행 될 수 있습니다. 여기서 모델 B와 방법 2는 때때로 비 물리적 응답을 생성하고 회귀 방법이 MLR이 아닌 경우,
Q3이 정보 이론과 어떤 관련이 있습니까 방법 :
MLR 가정 # 1. AIC는 회귀 문제에 대한 최대 가능성 (MLR) 적용 가능성의 가정을 전제로합니다. 평범한 최소 제곱 회귀와 최대 가능성 회귀가 동일한 것으로 나에게 지적 된 상황은 하나뿐입니다. 이는 정규 최소 제곱 (OLS) 선형 회귀의 잔차가 정규 분포이고 MLR에 가우시안 손실 함수가있는 경우입니다. OLS 선형 회귀의 경우 비선형 OLS 회귀 및 비 가우시안 손실 함수의 경우 MLR과 OLS가 다를 수 있습니다. OLS 또는 MLR 이외의 많은 다른 회귀 목표가 있거나 적합도 및 종종 좋은 대답은 대부분의 역 문제에 대해 거의 관련이 없습니다.. 유사 가능성에 대해 일반화 AIC를 사용하려는 시도가 많이 제기되어 (예 : 1100 배) 최대 가능성 회귀에 대한 의존도가 완화되어보다 일반적인 손실 함수 를 허용 합니다 . 또한, 닫힌 형태는 아니지만 Student's-t에 대한 MLR은 강력하게 수렴 됩니다. Student-t 잔차 분포는 가우시안 조건을 포함 할뿐만 아니라 더 일반적이고 일반적이므로 AIC에 가우시안 가정을 사용해야하는 특별한 이유가 없습니다.
MLR 가정 # 2. MLR은 적합도를 정량화하려는 시도입니다. 때로는 적절하지 않은 경우에 적용됩니다. 예를 들어, 사용 된 모델이 트리밍되지 않은 트리밍 된 범위 데이터의 경우. 완벽한 정보 범위를 갖추면 적합도는 모두 훌륭합니다. 시계열에서는 일반적으로 물리적 이벤트가 처음에 발생하거나 모델이 초기 데이터를 조사하기에 충분하지 않을 수 있음을 완전히 이해하기에 충분한 정보가 없습니다. 더 큰 문제는 데이터 부족으로 인해 매우 늦은 시간에 적합도를 테스트 할 수 없다는 것입니다. 따라서 적합도는 곡선 아래에 맞는 면적의 30 % 만 모델링 할 수 있으며,이 경우 데이터의 위치를 기준으로 외삽 된 모델을 판단하고 있으며 그 의미를 조사하지 않습니다. 외삽하기 위해, 우리는 '금액'의 적합도뿐만 아니라 우리가 외삽 법의 "좋은 점"이없는 실패한 금액의 파생 상품도 검토해야합니다. 따라서, B- 스플라인과 같은 적합 기법은 도함수가 적합 할 때 데이터가 무엇인지, 또는 대안으로 역 문제 처리 (예를 들어, 오류 전파 적응 형 Tikhonov와 같은 전체 모델 범위에 걸쳐 잘못된 통합 처리)를보다 부드럽게 예측할 수 있기 때문에 사용을 찾습니다. 정규화.
또 다른 복잡한 문제는 데이터가 무엇을해야하는지 알려줄 수 있습니다. 적합도 (적절한 경우)를 위해 필요한 것은 표준 편차가 거리라는 의미에서 거리의 잔차를 갖는 것입니다. 즉, 단일 표준 편차의 두 배 길이의 잔차가 길이가 두 표준 편차가 아닌 경우 적합도는 의미가 없습니다. 모델 선택 / 회귀 방법을 적용하기 전에 데이터 변환 선택을 조사해야합니다. 데이터에 비례 유형 오류가있는 경우 일반적으로 회귀를 선택하기 전에 로그를 취하는 것은 표준 편차를 거리로 변환하므로 부적절하지 않습니다. 또는 비례 데이터에 적합하도록 표준을 최소화하도록 변경할 수 있습니다. 포아송 오류 구조에도 동일하게 적용됩니다. 우리는 데이터의 제곱근을 취하여 오류를 정규화하거나 피팅 표준을 변경할 수 있습니다. 예를 들어, 방사성 핵종 붕괴가 계수 데이터와 실제 질량 사이에 지수 적 시간 기반 연관성을 도입 할 때 핵 붕괴로부터의 포아송 계수 통계를 적용 할 수없는 경우 훨씬 더 복잡하거나 다루기 어려운 문제가 있습니다. 부패가 없었다면 그 수를 발산했습니다. 왜? 카운트 속도를 역으로 수정하면 더 이상 포아송 통계가없고 수정 된 카운트의 제곱근의 잔차 (또는 오류)가 더 이상 거리가 아닙니다. 그런 다음 부패 수정 데이터 (예 : AIC)에 대한 적합도 테스트를 수행하려면 겸손한 자에게 알려지지 않은 방식으로 수행해야합니다. MLR 사용을 고집한다면 독자에게 공개 질문 데이터의 오류 유형을 설명하기 위해 표준을 변경할 수 있습니까? (원하는) MLR 사용을 허용하도록 데이터를 항상 변환해야합니까? AIC는 단일 모델에 대한 회귀 분석 방법을 비교하지 않고 동일한 회귀 분석 방법에 대해 다른 모델을 비교합니다.
AIC 가정 # 1. 예를 들어 MLR과 Student's-t에 대한이 질문을 참조하십시오 . 다음으로 MLR이 문제에 적합하다고 가정하여 이론적으로 AIC 값을 비교하는 데 사용하는 것을 추적합니다. 우리는 가정 다음으로 1) 완전한 정보, 2) 예를 들어 잔차의 분포 (같은 종류의 두 정상 모두 Student's-이 그 t 적어도 2 개 모델을). 즉, 우리는 두 모델이 이제 잔차 분포 유형을 가져야한다는 사고를당했습니다. 그럴 수 있습니까? 그렇습니다.하지만 항상 그런 것은 아닙니다.
AIC 가정 # 2. AIC는 수량의 음의 로그 (모델의 파라미터 수를 Kullback-Leibler divergence로 나눈 값 )와 관련됩니다. 이 가정이 필요합니까? 에서 일반적인 손실 함수의 종이 다른 "발산"이 사용된다. 이로 인해 다른 측정이 KL 발산보다 더 일반적인 지에 대한 의문이 생길 수 있습니다. 왜 AIC에도 사용하지 않습니까?
Kullback-Leibler 발산 에서 AIC에 대해 일치하지 않는 정보 는 "... 확률 분포 사이의 거리를 측정하는 방법으로 종종 사용되지만 Kullback-Leibler 발산은 실제 측정 항목이 아닙니다." 우리는 왜 곧 알게 될 것입니다.
KL 인수는 모델 (P)과 데이터 (Q)의 두 가지 차이점이있는 지점에 도달합니다.
DKL(P∥Q)=∫Xlog(dPdQ)dPdQdQ,
우리는 ''Q ''에 대한 ''P ''의 엔트로피로 인식합니다.
AIC 가정 # 3. Kullback-Leibler 분기와 관련된 대부분의 공식은 로그의 밑에 상관없이 유지됩니다. AIC가 한 번에 둘 이상의 데이터 세트와 관련되어있는 경우 상수 승수는 더 의미가있을 수 있습니다. 분석법을 비교할 때와 같이 이면 양수가 몇 번이고 여전히 입니다. 그것은 임의적이므로 정의의 문제로 상수를 특정 값으로 설정하는 것도 부적절하지 않습니다.AICdata,model1<AICdata,model2<
AIC 가정 # 4. 그것은 AIC가 Shannon 엔트로피 또는 자기 정보를 측정한다는 것 입니다. "우리가 알아야 할 것은"정보의 측정에 필요한 엔트로피입니까? "입니다.
"자체 정보"가 무엇인지 이해하기 위해, 우리는 물리적 맥락에서 정보를 정상화하는 것이 우리에게 호소합니다. 예, 정보 측정에 물리적 인 속성이 있어야합니다. 더 일반적인 상황에서 어떻게 보일까요?
깁스 자유 에너지 방정식 (ΔG=ΔH–TΔS)는 엔탈피 변화에서 엔트로피 변화의 절대 온도를 뺀 엔탈피의 변화와 에너지의 변화를 관련시킵니다. 온도는 성공적인 유형의 정규화 된 정보 내용의 예입니다. 열 차단 환경에서 하나의 핫 브릭과 하나의 콜드 브릭이 서로 접촉하면 열이 그들 사이에 흐르기 때문입니다. 우리가 너무 열심히 생각하지 않고 이것에 뛰어 들면 열은 정보라고 말합니다. 그러나 시스템의 동작을 예측하는 것은 상대적 정보입니다. 평형에 도달 할 때까지 정보가 흐르지 만 무엇의 평형? 온도, 그것은 특정 입자 덩어리의 입자 속도에서와 같이 열이 아닌 것입니다. 저는 분자 온도에 대해 이야기하고 있지 않습니다. 나는 다른 덩어리가 있고 다른 재료로 만들어졌으며 밀도가 다른 두 개의 벽돌의 총 온도에 대해 이야기하고 있습니다. 그 중 어느 것도 알아야 할 것은 없습니다. 총 온도가 평형을 이루는 것입니다. 따라서 하나의 벽돌이 더 뜨거우면 상대적 정보 내용이 많고 차가울수록 더 적습니다.
이제 한 벽돌이 다른 벽돌보다 엔트로피가 더 많다고 들으면 어떻게해야합니까? 그것은 그 자체로 다른 벽돌과 접촉 할 때 엔트로피를 얻거나 잃을 지 예측하지 않습니다. 그렇다면 엔트로피만으로도 유용한 정보를 측정 할 수 있습니까? 예, 그러나 동일한 벽돌을 자체와 비교하여 "자체 정보"라는 용어를 비교하는 경우에만 가능합니다.
그로부터 마지막 제한이 있습니다. KL 분기를 사용하려면 모든 브릭이 동일해야합니다. 따라서, AIC를 비정형 인덱스로 만드는 것은 정보 세트를 정규화하여 해결할 수있는 특히 바람직한 특성이 아닌 데이터 세트 (예를 들어, 다른 브릭)간에 이식성이 없다는 점이다. KL 발산은 선형입니까? 아마 그렇습니다, 아마 그렇습니다. 그러나 그것은 중요하지 않습니다. 우리는 AIC를 사용하기 위해 선형성을 가정 할 필요가 없으며, 예를 들어 엔트로피 자체는 온도와 선형 적으로 관련이 있다고 생각하지 않습니다. 즉, 엔트로피 계산을 사용하기 위해 선형 메트릭이 필요하지 않습니다.
AIC에 관한 좋은 정보원은이 논문에있다 . 비관적 인 측면에서 이것은 "그 자체로 주어진 데이터 세트에 대한 AIC의 가치는 의미가 없다"고 말합니다. 이것은 낙관적 측면에서, 결과가 가까운 모델을 스무딩하여 신뢰 구간 등을 설정하여 차별화 할 수 있다고 말합니다.