베이지안 대 MLE, 과적 합 문제


12

주교의 PRML 서적에서, 초과 적합은 MLE (Maximum Likelihood Estimation)의 문제이며 Bayesian은이를 피할 수 있다고 말합니다.

그러나 과적 합은 모수 추정에 사용 된 방법이 아니라 모형 선택에 대한 문제라고 생각합니다. 즉, 통해 생성되는 데이터 세트 가 있다고 가정 하면 이제 데이터에 맞게 다른 모델 를 선택 하고 알아낼 수 있습니다. 어느 것이 최고입니다. 고려중인 모형은 차수가 다른 다항식이며 은 차수 1, 는 차수 2, 은 차수 9입니다.f ( x ) = s i n ( x ) ,DH i H 1 H 2 H 3

f(x)=sin(x),x[0,1]
HiH1H2H3

이제 데이터 를 3 개의 모델 각각에 맞추려고 시도합니다 . 각 모델에는 대해 로 표시된 매개 변수가 있습니다.w i H iDwiHi

ML을 사용하면 모델 매개 변수 의 점 추정치가 있으며 은 너무 단순하고 항상 데이터에 적합하지 않지만 은 너무 복잡하고 데이터에 너무 적합하며 만 데이터에 잘 맞습니다.H 1 H 3 H 2wH1H3H2

내 질문은

1) 모델 은 데이터에 적합하지만 ML의 문제는 아니지만 모델 자체의 문제라고 생각합니다. ML을 사용 인해 과적 합이 발생하지 않습니다. 내가 맞아?H 1 , H 2H3H1,H2

2) ML은 Bayesian과 비교할 때 모델 매개 변수 의 점 추정치를 제공하기 때문에 약간의 단점이 있으며 과도합니다. Bayesian은 매개 변수의 가장 가능한 값에 의존하지 않지만 관측 된 데이터 주어지면 가능한 모든 매개 변수 값에 의존합니다 .DwD

3) 베이지안이 왜 과적 합을 피하거나 줄일 수 있습니까? 내가 알기로, 모델 비교를 위해 베이지안을 사용할 수 있습니다. 즉, 데이터 가 주어지면 고려중인 각 모델 의 한계 우도 (또는 모델 증거) 를 찾은 다음 가장 높은 한계 우도를 가진 모델을 선택할 수 있습니다 ? 그렇다면 왜 그렇습니까?D

답변:


19

최적화는 통계에서 모든 악의 근원입니다. 한정된 데이터 샘플에서 평가 된 적절한 기준을 최적화 하여 모델 을 선택할 때마다 기준을 과적 합할 위험이 있습니다. 대신 데이터 샘플의 특성 (예 : 노이즈)을 활용하여 얻을 수 있습니다. 베이지안 방법이 더 잘 작동하는 이유는 아무것도 최적화하지 않고 가능한 모든 선택에 대해 주 변화 (통합)하기 때문입니다. 문제는 모델에 대한 사전 신념의 선택에 달려 있으므로 한 문제는 사라졌지 만 다른 문제는 그 자리에 나타납니다.1


1 여기에는 베이지안 설정에서 증거 (한계 가능성)를 최대화하는 것이 포함됩니다. 이에 대한 예를 보려면 필자의 논문에서 가우시안 프로세스 분류기의 결과를 참조하십시오. 여기서 가능성을 최적화하면 하이퍼 매개 변수가 너무 많으면 모델이 악화됩니다 (마진 가능성에 따라 선택하면 하이퍼가 많은 모델을 선호하는 경향이 있음) -이 형태의 과적 합 결과 매개 변수).

GC Cawley 및 NLC Talbot, 성능 평가에서 모델 선택 및 후속 선택 바이어스에 과적 합, Journal of Machine Learning Research, 2010. Research, vol. 11, pp. 2079-2107, 2010 년 7 월. ( pdf )


+1, 정말 고마워요. 논문을 읽고 더 궁금한 점이 있는지 확인해보세요. ;-)
avocado

1
여기서 최적화는 일반적으로 대략 통합하는 것으로 생각할 수 있습니다. Laplace 방법이 이에 대한 예입니다. 적분에 대한 근사치가 좋지 않은 경우 일반적으로 최적화가 실패하므로 REML이 ML보다 일반적으로 더 나은 이유는 무엇입니까?
probabilityislogic

@probabilityislogic, 나는 ML이 MAP와 약간 비슷하다는 것을 확신하지 못한다. 통합이 수행되지 않는다. Laplace 근사법을 사용하면 (내가 사용한 방식으로) 대신 통합하고 통합하려는 함수에 대한 근사치를 최적화한다는 의미에서 최적화하지만 여전히 통합이 진행 중입니다.
Dikran Marsupial

1
@dikran marsupial-아마도 그것을 설명하는 더 좋은 방법은 ML로 매개 변수를 추정하고 해당 매개 변수를 MLE과 동일하게 제한함으로써 통합이 대략적으로 근사된다는 것입니다. Laplace 근사는 REML과 같은 방식으로이 직감에 대한 "수정 계수"를 제공합니다.
probabilityislogic

@probabilityislogic 답장을 보내 주셔서 감사합니다. 몇 가지 생각을 드리겠습니다!
Dikran Marsupial

7

일반적인 응답으로, "최소 제곱"유형 회귀 모델을 사용하는 경우 회귀 매개 변수에 사전 정보를 사용하지 않으면 베이와 ML 사이에 큰 차이가 없습니다. 세부 사항에 대한 답변 :

1) 는 9 개에 가까운 관측치가있는 경우에만 데이터를 과적 시킬 필요는 없습니다. 100 개의 관측치가있는 경우 추정 된 "과적 합 된"계수의 대부분은 0에 가깝습니다. 또한 은 거의 항상 "부적합"을 초래합니다. 명확한 곡률이 누락 되었기 때문입니다.H 1H9H1

2) 이것은 다항식 확장과 같은 "선형"에 해당되지 않습니다 ( "선형"은 아니라 매개 변수에 대해 선형을 의미 함 ). 최소 제곱에 대한 ML 추정치는 유익하지 않은 사전 또는 큰 표본 크기에서 사후 평균과 동일합니다. 실제로 ML 추정값이 다양한 모델에서 "점근 법"후방 수단으로 생각 될 수 있음을 보여줄 수 있습니다.x

3) 베이지안 접근법은 적절한 사전에만 과적 합을 피할 수 있습니다. 이것은 일부 피팅 알고리즘에서 볼 수있는 페널티 용어와 유사한 방식으로 작동합니다. 예를 들어, L2 페널티 = 보통 이전, L1 페널티 = 라플라스 이전입니다.


더 많이 관찰하면 가 하지 않을 것입니다. 그러나 과적 합은 ML 자체가 아닌 잘못된 모델을 선택하는 문제 라는 주장에 맞 습니까? 그리고 모델 선택에서 베이지안을 사용할 수 있지만 ML에서는 그렇게 할 수 없습니다. H9
아보카도

분명히 H의 모든 선택은 이외의 잘못된 모델이 될 것 입니다. 문제는 바이어스 및 분산 성분이 모두있는 모형의 매개 변수를 추정 할 때 발생하는 오류입니다. 베이지안 기준을 사용하여 모델을 선택하는 경우에도 해당 모델을 과도하게 적합시킬 수 있습니다 (내 답변에서이를 지원하기 위해 참조를 추가합니다). H
Dikran Marsupial

@ 여기 가 다른 어떤 것보다 진실에 더 가깝다고 생각 합니다. 과적 합은 지원할 수있는 표본 크기 및 모델 구조 유형과 더 밀접하게 연결되어 있습니다 ( "확실성"모델이라고도 함). H9
probabilityislogic

4

기본적으로 다항식의 차수를 늘려서 수행하는 작업은 모형 공간 의 매개 변수 수 또는 자유도를 증가시키는 것 입니다. 그 차원. 더 많은 매개 변수를 추가할수록 모델이 학습 데이터에 더 쉽게 적합 할 수 있습니다. 그러나 이것은 또한 관측 횟수에 크게 의존합니다. 훈련 인스턴스 수가 충분히 많으면 이 전혀 적합하지 않을 수 있는 것처럼 관측치 수가 적은 경우 모델 및 가 훈련 데이터에 할 수 있습니다.H 2 H 3H1H2H3

예를 들어, 과장하여 과장하여 훈련 예제 만 제공한다고 가정하겠습니다. 조차도 항상 데이터에 과도하게 적합하지 않습니다.H 12H1

예를 들어 정규화를 통해 우선 순위를 부과하는 이점은 매개 변수가 0 또는 다른 사전 정의 된 값으로 축소되고 (원하는 경우 계수를 "결합"하기 위해 매개 변수를 추가 할 수도 있음) 매개 변수를 암시 적으로 제한한다는 것입니다. 모델의 "자유"를 과도하게 줄입니다. 예를 들어, 올가미 (즉, 정규화 또는 이와 동등한 Laplace 사전)를 사용하고 해당 매개 변수를 조정하면 (예 : 10x 교차 검증 사용) 잉여 매개 변수가 자동으로 제거됩니다. 베이지안 해석은 유사합니다. 사전을 부과함으로써 전체 데이터에서 추론 할 수있는 더 많은 값으로 매개 변수를 제한합니다.l1


훈련 샘플이 충분하지 않은 간단한 가설 (예 : h1, h2)은 주어진 소수의 훈련 예제에 대한 모델 편향으로 인해 적합하지 않은 (cv의 경우)의 예이며과 적합하지 않은 예입니다.
yekta
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.