답변:
두 변수가 동일한 변수를 모델링하지 않기 때문에 두 모델을 비교할 수 없습니다 (정확하게 인식하고 있음). 그럼에도 불구하고 중첩 된 모델과 중첩되지 않은 모델을 모두 비교할 때 AIC가 작동해야합니다.
계속하기 전에 알림 : 가우스 로그 우도는 다음과 같습니다.
모델의 공분산 구조되고, | D | 데이터 세트의 포인트 수, μ 평균 응답 및 x 종속 변수
보다 구체적으로 AIC는 와 동일하게 계산되며 , 여기서 k 는 모형의 고정 효과 수이고 L 은 우도 함수입니다 [1]. 실제로 모델링 가정에서 분산 ( 2 k )과 치우침 ( 2 log ( L ) ) 간의 균형을 비교합니다 . 따라서 귀하의 경우 편견에 관해서는 두 가지 다른 로그 가능성 구조를 비교합니다. 실제로 로그 우도를 계산할 때 두 항, 즉 − 1 로 표시되는 적합 항을 볼 수 있기 때문입니다.및 복잡도 처벌 용어로 표기-1. 따라서 두 모형간에 적합 항이 완전히 다르다는 것을 알 수 있습니다. 첫 번째 경우에는 원시 데이터의 잔차와 다른 경우에는 로그 된 데이터의 잔차를 비교합니다.
Wikipedia 외에도 AIC는 다음과 동일하게 정의됩니다. [3]; 이 형식을 사용하면 종속 변수가 다른 모델을 비교할 수없는 이유가 더 분명해집니다. RSS는 두 가지 경우입니다. 두 경우는 비교할 수 없습니다.
Akaike의 원본 논문 [4]은 실제로 이해하기가 매우 어렵습니다 (제 생각에). KL 발산 (대략 말하면 두 분포의 차이)을 기반으로하며 데이터의 알 수없는 실제 분포를 근사하고 모형이 가정하는 데이터의 분포와 비교할 수있는 방법을 증명하는 데 도움이됩니다. 그것이 "작은 AIC 점수가 더 나은" 이유입니다 . 데이터의 대략적인 실제 분포에 더 가깝습니다.
따라서 AIC를 사용할 때 기억해야 할 명백한 것들을 모두 모아서 세 가지 [2,5] :
다른 데이터 세트의 모델을 비교하는 데 사용할 수 없습니다.
모든 후보 모델에 동일한 응답 변수를 사용해야합니다.
당신은해야 , 그렇지 않으면 당신은 좋은 점근 적 일관성을하지 않기 때문에.
나쁜 소식을 들려서 죄송하지만 AIC를 사용하여 하나의 종속 변수를 다른 변수보다 선택하는 것은 통계적으로 바람직한 일이 아닙니다. 기록 된 데이터 사례에 정규 분포가있는 잔차가 있고 원시 데이터 사례가 그렇지 않은 경우 두 모델의 잔차 분포를 확인하십시오. 필요한 모든 정당성이 있습니다. 또한 원시 데이터가 로그 정규에 해당하는지 확인하고 싶을 수도 있습니다.
엄격한 수학적 가정을 위해 게임은 KL 분기 및 정보 이론입니다 ...
아, 그리고 일부 참고 문헌 :
uu0
uu0
AIC (uu0)+2*sum (log (usili))
AIC (uu1)
AIC()