동일한 수의 매개 변수로 두 모델의 복잡성을 어떻게 비교할 수 있습니까?
편집 09/19 : 명확히하기 위해 모델 복잡성은 제한된 데이터에서 배우기가 얼마나 어려운지를 측정합니다. 두 모델이 기존 데이터에 동일하게 적합 할 경우 복잡성이 낮은 모델은 향후 데이터에 대한 오류를 줄입니다. 근사값을 사용하는 경우 기술적으로 항상 사실은 아니지만 실제로 적용되는 경향이 있으면 괜찮습니다. 다양한 근사치로 복잡한 측정 방법이 다릅니다
동일한 수의 매개 변수로 두 모델의 복잡성을 어떻게 비교할 수 있습니까?
편집 09/19 : 명확히하기 위해 모델 복잡성은 제한된 데이터에서 배우기가 얼마나 어려운지를 측정합니다. 두 모델이 기존 데이터에 동일하게 적합 할 경우 복잡성이 낮은 모델은 향후 데이터에 대한 오류를 줄입니다. 근사값을 사용하는 경우 기술적으로 항상 사실은 아니지만 실제로 적용되는 경향이 있으면 괜찮습니다. 다양한 근사치로 복잡한 측정 방법이 다릅니다
답변:
최소 설명 길이 (예 : 정규화 된 최대 가능성, Fisher 정보 근사) 의 다양한 측정 외에 언급 할만한 두 가지 다른 방법이 있습니다.
파라 메트릭 부트 스트랩 . 까다로운 MDL 측정보다 구현이 훨씬 쉽습니다. 좋은 논문은 Wagenmaker와 동료들에 의해 작성되었습니다 :
Wagenmakers, E.-J., Ratcliff, R., Gomez, P. & Iverson, GJ (2004). 파라 메트릭 부트 스트랩을 사용하여 모델 모방을 평가합니다 . 수학 심리학 저널 , 48, 28-50.
초록 :
우리는 경쟁 모델에 의해 생성 된 데이터를 설명하는 모델의 능력으로 정의 된 모델 모방을 정량화하기위한 일반적인 샘플링 절차를 제시한다. 파라 메트릭 부트 스트랩 교차 피팅 방법 (PBCM; cf. Williams (JR Statist. Soc. B 32 (1970) 350; Biometrics 26 (1970) 23) 참조)이라고하는이 샘플링 절차는 적합도 차이의 분포를 생성합니다. 각 경쟁 모델에서 예상됩니다. PBCM의 데이터 정보 버전에서, 생성 모델은 실험 데이터를 고려하여 얻은 특정 파라미터 값을 갖는다. 데이터에 따른 차이 분포는 모델 적합성의 정량화를 위해 적합도의 관측 된 차이와 비교 될 수 있습니다. PBCM의 정보가없는 버전의 데이터에서 생성 모델은 사전 지식에 기초하여 비교적 광범위한 파라미터 값을 갖는다. 정보가 제공되는 데이터와 정보가없는 PBCM이 모두 적용되는 예는 몇 가지 예와 함께 설명됩니다.
업데이트 : 일반 영어로 모델 흉내를 평가합니다. 경쟁하는 두 가지 모델 중 하나를 선택하고 해당 모델에 대한 매개 변수 세트를 임의로 선택합니다 (정보 제공 여부). 그런 다음 선택한 매개 변수 세트를 사용하여이 모델에서 데이터를 생성합니다. 다음으로 두 모델이 생성 된 데이터를 맞추고 두 후보 모델 중 어느 것이 더 잘 맞는지 확인하십시오. 두 모델이 모두 유연하거나 복잡한 경우 데이터를 생성 한 모델이 더 적합해야합니다. 그러나 다른 모델이 더 복잡한 경우 데이터가 다른 모델에서 생성되었지만 더 적합 할 수 있습니다. 두 모델 모두에서이 작업을 여러 번 반복합니다 (즉, 두 모델 모두 데이터를 생성하고 두 모델 중 어느 것이 더 적합한 지 확인하십시오). 다른 모델에서 생성 된 데이터를 "과적 합"하는 모델이 더 복잡합니다.
교차 검증 : 구현하기도 쉽습니다. 이 질문에 대한 답변을 참조하십시오 . 그러나 문제는 샘플 절단 규칙 (leave-one-out, K-fold 등) 중에서 선택할 수없는 규칙입니다.
실제 모델 피팅 절차에 달려 있다고 생각합니다. 일반적으로 적용 가능한 측정의 경우 Ye 1998에 설명 된 일반화 된 자유도 ( 기본적으로 관측치 교란에 대한 모델 추정값의 변경 민감도)를 고려할 수 있습니다. 이는 모델 복잡성 측정에 매우 효과적입니다.
최소 설명 길이 (MDL) 및 최소 메시지 길이 (MML)는 확실히 확인할 가치가 있습니다.
MDL에 관한 한, NML (Normalized Maximum Likelihood) 절차와 점근 적 근사를 나타내는 간단한 논문은 다음과 같습니다.
S. de Rooij & P. Grünwald. 무한 파라 메트릭 복잡성을 가진 최소 설명 길이 모델 선택에 대한 경험적 연구. 수학 심리학 저널, 2006, 50, 180-192
여기에서는 기하 형 대 포아송 분포의 모형 복잡성을 살펴 봅니다. MDL에 대한 훌륭한 (무료) 튜토리얼은 여기 에서 찾을 수 있습니다 .
또는 MML과 MDL로 조사한 지수 분포의 복잡성에 관한 논문을 여기 에서 찾을 수 있습니다 . 불행히도 MML에 대한 최신 자습서는 없지만이 책 은 훌륭한 참고 자료이며 적극 권장됩니다.
"모델 복잡성"은 일반적으로 모델 공간의 풍부함을 의미합니다. 이 정의는 데이터에 의존하지 않습니다. 선형 모형의 경우 모형 공간의 풍부함은 공간의 축소로 사소하게 측정됩니다. 이것은 일부 저자들이 "자유도"라고 부르는 것입니다 (역사적으로 자유도는 모형 공간과 표본 공간의 차이를 위해 예약되었습니다). 비선형 모델의 경우 공간의 풍부함을 정량화하는 것이 쉽지 않습니다. 일반화 된 자유도 (ars의 답변 참조)는 그러한 척도입니다. 실제로 매우 일반적이며 나무, KNN 등과 같은 "이상한"모델 공간에 사용할 수 있습니다. VC 차원이 다른 척도이다.
위에서 언급 한 것처럼, "복잡성"에 대한이 정의는 데이터에 독립적입니다. 따라서 동일한 수의 매개 변수를 가진 두 모델은 일반적으로 동일한 "복잡성"을 갖습니다.
Yaroslav의 의견에서 Henrik의 답변까지 :
그러나 교차 유효성 검사는 복잡성 평가 작업을 연기하는 것 같습니다. 교차 검증에서와 같이 데이터를 사용하여 매개 변수와 모델을 선택하는 경우 관련 질문은이 "메타"피팅이 제대로 수행하는 데 필요한 데이터 양을 추정하는 방법이됩니다.
절차의 결과가 표본 예측 오차와 차이가있는 용어 (단위)이므로 직접적으로 '의미'풍미를 줄 수 있습니다.
모델 비교를위한 정보 기준은 어떻습니까? 예를 들어 http://en.wikipedia.org/wiki/Akaike_information_criterion을 참조하십시오
모델 복잡도는 모델의 매개 변수 수입니다.