Akaike 정보 기준이 기계 학습에 더 많이 사용되지 않는 이유는 무엇입니까?


16

방금 "Akaike information criterion"에 부딪 쳤고 모델 선택에 관한 많은 양의 문헌을 보았습니다 (BIC와 같은 것들도 존재 함).

현대 기계 학습 방법이 이러한 BIC 및 AIC 모델 선택 기준을 활용하지 않는 이유는 무엇입니까?


9
아무도 가능성을 계산하지 않기 때문에?
Aksakal

1
"현대 기계 학습 방법"은 무엇을 의미합니까? 내가 사용한 한 AIC와 BIC가 자주 사용됩니다.
Ferdi

4
또한 왜 -1입니까? 어리석은 질문이 없다는 것을 기억하십시오. 각 질문은 우주에 빛을 비추려고합니다
echo

4
@echo : 저는 공감하지는 않았지만 주된 주장을 소싱 / 지원할 수 있다면 귀하의 질문이 개선 될 것이라고 생각합니다 (머신 러닝 방법은 이러한 BIC 및 AIC 모델 선택 기준을 활용합니다)
user603

2
@Aksakal 감사합니다. 나는 광범위한 주장에 대해 구성된 질문이 그 주장을 뒷받침 할 수 있다면 더 좋다고 생각합니다. 나는 일반적으로 의미합니다.
user603

답변:


15

예를 들어 단계적 회귀에 AIC와 BIC가 사용됩니다. 그것들은 실제로 사용되는 더 큰 클래스의 "휴리스틱"의 일부입니다. 예를 들어 DIC (Deviance Information Criterion)는 종종 베이지안 모델 선택에 사용됩니다.

그러나 기본적으로 "휴리스틱"입니다. 그것이 보여 질 수 있지만, AIC와 BIC는 모두 교차 검증 접근법으로 무증상 수렴합니다 (AIC는 Leave-one-Out CV로, BIC는 다른 접근법으로 간다고 생각하지만 확실하지는 않습니다). 과소 벌칙 및 과대 벌칙. 즉, AIC를 사용하면 모델보다 더 복잡한 모델이 종종 나오지만 BIC에서는 모델이 너무 단순합니다.

두 가지 모두 CV와 관련이 있기 때문에 CV가 더 나은 선택 인 경우가 많으며 이러한 문제가 발생하지 않습니다.

마지막으로 BIC 및 AIC에 필요한 매개 변수 수의 문제가 있습니다. 실수 입력에 대한 일반 함수 근 사기 (예 : KNN)를 사용하면 매개 변수를 "숨길"수 있습니다. 즉, 두 개의 실수와 동일한 정보를 포함하는 실수를 구성 할 수 있습니다 (예 : 숫자를 교차하는 것). 이 경우 실제 매개 변수 수는 얼마입니까? 반면에 더 복잡한 모델의 경우 매개 변수에 제약이있을 수 있습니다 . 예를 들어 θ1>θ2 와 같은 매개 변수 만 적합 할 수 있습니다 (예 : 여기 참조 ). 또는 식별 할 수없는 경우가있을 수 있으며,이 경우 여러 매개 변수 값이 실제로 동일한 모델을 제공합니다. 이 모든 경우에 단순히 매개 변수를 계산한다고해서 적절한 추정치가 제공되지는 않습니다.

많은 현대의 머신 러닝 알고리즘이 이러한 특성 (예 : 보편적 근사, 불명확 한 매개 변수 수, 비 식별성)을 보여 주므로 AIC 및 BIC는 언뜻보기에이 모델에 덜 유용합니다.

편집 :

명확히 할 수있는 몇 가지 사항 :

  1. RRN 사이의 숫자를 인터리브하여 매핑을 고려하는 것은 잘못된 것 같습니다 ( 여기 참조 ). 그러나 이것이 거부되지 않은 이유에 대한 세부 사항은 이해하기 약간 어렵습니다. 그러나 실제로 우리는이 아이디어가 효과를 발휘할 수있는 bijection이 필요하지 않습니다 (surjection이면 충분합니다).
  2. Cantor (1877)의 증명에 따르면 , RRN 사이에 궤적이 있어야합니다 . 이 bijection을 명시 적으로 정의 할 수는 없지만 존재 여부를 입증 할 수 있습니다 (그러나 입증되지 않은 선택 원칙이 필요함). 이 bijection은 이론적 모델 (컴퓨터에서이 모델을 실제로 구현하는 것이 불가능할 수도 있음)에서 단일 매개 변수를 임의의 수의 매개 변수로 압축 풀기 위해 여전히 사용될 수 있습니다.
  3. 우리는 실제로 RRN 사이의 매핑이 필요하지 않습니다 . 모든 외과 용 기능 RRN 은 단일 파라미터에서 여러 파라미터를 풀기에 충분합니다. 이러한 예측은 일련의 다른 기능들 (소위 공간-충전 곡선 , 예를 들어 Peano 곡선 ) 에 대한 제한으로서 존재하는 것으로 보여 질 수있다 .
  4. Cantor의 증거는 건설적인 것이 아니며 (예시하지 않고 단순히 bijection의 존재를 증명하지도 않음) 공간 채우기 곡선 (제작 대상의 한계로만 존재하므로 건설적 자체가 아니기 때문에) 이론적 증거 일뿐입니다. 이론적으로, 우리는 BIC를 원하는 값 (훈련 세트에서) 아래로 줄이기 위해 모델에 매개 변수를 계속 추가 할 수 있습니다. 그러나 실제 모델 구현에서는 공간 채우기 곡선을 근사해야하므로 근사 오류로 인해 실제로 그렇게하지 못할 수 있습니다 (실제로는 이것을 테스트하지 않았습니다).
  5. 이 모든 것이 선택의 공리를 요구하기 때문에, 당신이이 공리를 받아들이지 않으면 그 증거는 유효하지 않습니다 (대부분의 수학자들은 그렇게합니다). 즉, 건설 수학에서는 이것이 불가능할 수도 있지만 통계 수학에서 건설 수학이 어떤 역할을하는지 모르겠습니다.
  6. 식별 가능성은 본질적으로 기능적 복잡성과 관련이 있습니다. 단순히 식별 가능한 N 파라미터 모델을 가져와 불필요한 매개 변수를 추가하면 (예 : 어디에도 사용되지 않음) 새 모델은 식별 할 수 없게됩니다. 본질적으로, 하나의 복잡성을 갖는 모델 사용하고 RN+1 복잡성있는 문제 해결 RN . 마찬가지로 다른 형태의 비 식별성. 식별 할 수없는 매개 변수 순열의 경우를 예로 들어 보겠습니다. 이 경우 RN 의 복잡성을 갖는 모델을 사용 하지만 실제 문제는 R N 에 대한 등가 클래스 세트의 복잡성 만 있습니다.RN. 그러나 이것은 단지 비공식적 인 주장 일뿐입니다. 저는 이러한 "복잡성"개념에 대한 공식적인 처리 방법을 모릅니다.

이 게시물에의 차임에 대한 배려 stats.stackexchange.com/questions/325129/... ? 나는 한동안 운이 없었습니다.
Skander H.-복원 Monica Monica

1
@LiKao 교차 숫자의 경우와 같이 히딩 매개 변수의 "기술"에 대한 참조를 인용 할 수 있습니까?
horaceT

@horaceT 불행히도 나는이 예제를 제공하는 종이를 모른다. MDL에 관한 논문에는 "기능적 복잡성"이라는 개념이있다 (예 : lpl.psy.ohio-state.edu/documents/MNP.pdf eq 10 참조). 제한된 예 (예 : researchgate.net/publication/… )를 사용하여 예제를 작성하는 경우가 종종 있습니다. 이 문제를 논의 할 때 예제를 바꾸고 싶습니다. 복잡한 단일 매개 변수가 더 직관적이기 때문에 여러 간단한 매개 변수를 캡처 할 수 있음을 보여줍니다.
LiKao

f1,2:RR2f1,N:RRNNf1,NNN1

@ LiKao 이것은 매우 매혹적인 일입니다. Pls는 "파일링 커브"의 증거를 언급했다. 구속 된 매개 변수의 자유도가 "낮음"인 것을 알 수있었습니다. 순진하게, f (x, y) = 0이면 y는 x의 함수일뿐입니다. y가있는 곳에 g (x)를 넣으면됩니다. 제한된 최적화로 유사한 작업을 수행 할 수 없습니다.
horaceT
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.