방금 "Akaike information criterion"에 부딪 쳤고 모델 선택에 관한 많은 양의 문헌을 보았습니다 (BIC와 같은 것들도 존재 함).
현대 기계 학습 방법이 이러한 BIC 및 AIC 모델 선택 기준을 활용하지 않는 이유는 무엇입니까?
방금 "Akaike information criterion"에 부딪 쳤고 모델 선택에 관한 많은 양의 문헌을 보았습니다 (BIC와 같은 것들도 존재 함).
현대 기계 학습 방법이 이러한 BIC 및 AIC 모델 선택 기준을 활용하지 않는 이유는 무엇입니까?
답변:
예를 들어 단계적 회귀에 AIC와 BIC가 사용됩니다. 그것들은 실제로 사용되는 더 큰 클래스의 "휴리스틱"의 일부입니다. 예를 들어 DIC (Deviance Information Criterion)는 종종 베이지안 모델 선택에 사용됩니다.
그러나 기본적으로 "휴리스틱"입니다. 그것이 보여 질 수 있지만, AIC와 BIC는 모두 교차 검증 접근법으로 무증상 수렴합니다 (AIC는 Leave-one-Out CV로, BIC는 다른 접근법으로 간다고 생각하지만 확실하지는 않습니다). 과소 벌칙 및 과대 벌칙. 즉, AIC를 사용하면 모델보다 더 복잡한 모델이 종종 나오지만 BIC에서는 모델이 너무 단순합니다.
두 가지 모두 CV와 관련이 있기 때문에 CV가 더 나은 선택 인 경우가 많으며 이러한 문제가 발생하지 않습니다.
마지막으로 BIC 및 AIC에 필요한 매개 변수 수의 문제가 있습니다. 실수 입력에 대한 일반 함수 근 사기 (예 : KNN)를 사용하면 매개 변수를 "숨길"수 있습니다. 즉, 두 개의 실수와 동일한 정보를 포함하는 실수를 구성 할 수 있습니다 (예 : 숫자를 교차하는 것). 이 경우 실제 매개 변수 수는 얼마입니까? 반면에 더 복잡한 모델의 경우 매개 변수에 제약이있을 수 있습니다 . 예를 들어 와 같은 매개 변수 만 적합 할 수 있습니다 (예 : 여기 참조 ). 또는 식별 할 수없는 경우가있을 수 있으며,이 경우 여러 매개 변수 값이 실제로 동일한 모델을 제공합니다. 이 모든 경우에 단순히 매개 변수를 계산한다고해서 적절한 추정치가 제공되지는 않습니다.
많은 현대의 머신 러닝 알고리즘이 이러한 특성 (예 : 보편적 근사, 불명확 한 매개 변수 수, 비 식별성)을 보여 주므로 AIC 및 BIC는 언뜻보기에이 모델에 덜 유용합니다.
편집 :
명확히 할 수있는 몇 가지 사항 :