과적 합에 대한 베이지안 생각


20

전통적인 잦은 통계 영역에서 예측 모델을 검증하기위한 방법소프트웨어 개발에 많은 시간을 투자했습니다 . 더 많은 베이지안 아이디어를 실천하고 가르치면서 나는 수용해야 할 몇 가지 중요한 차이점을 봅니다. 먼저, 베이지안 예측 모델링은 분석가에게 후보 기능에 맞게 사용자 정의 할 수있는 이전 분포에 대해 열심히 생각하도록 요구하며, 이러한 사전은 모델을 이들쪽으로 향하게 할 것입니다 (즉, 다른 예측 기능에 대해 서로 다른 양의 벌점으로 축소 / 벌칙 / 정규화를 달성합니다) ). 둘째, "실제"베이지안 방식은 단일 모형을 생성하지 않지만 예측에 대한 전체 후방 분포를 얻습니다.

베이지안 기능을 염두에두고 과잉 적합이란 무엇입니까? 평가해야합니까? 그렇다면 어떻게? 베이지안 모델이 현장에서 신뢰할 수있는시기를 어떻게 알 수 있습니까? 아니면 우리가 예측을 위해 우리가 개발 한 모델을 사용할 때 후부가 이후의주의를 기울이는 불확실성을 모두 수반 할 것입니까?

베이지안 모형을 단일 평균 (예 : 후방 평균 / 모드 / 중앙 위험)으로 증류하도록하면 사고 방식이 어떻게 변할까요?

여기에 관련된 생각이 있습니다 . 여기 에서 병렬 토론을 찾을 수 있습니다 .

후속 질문 : : 우리가 완전히 베이지안이고 데이터를보기 전에 이전에 대해 생각하는 데 시간을 보내고 데이터 가능성이 적절하게 지정된 모델에 적합하면 과적 합과 관련하여 모델에 만족해야합니다. ? 또는 무작위로 선택된 주제가 평균적으로 잘 예측 될 수있는 빈번한 세계에서 우리가하는 일을해야합니까? 그러나 예측이 매우 낮은 주제 또는 예측 된 값이 매우 높은 주제를 선택하면 회귀가 발생합니다 평균적으로?



1
앤드류 겔만은 매우 관련 블로그 기사를 가지고 andrewgelman.com/2017/04/12/bayesian-posteriors-calibrated
프랭크 하렐

답변:


6

베이지안 모델은 이전 예측 분포에서 가져온 데이터를 체계적으로 과적 합 (또는 과적 합) 할 수 없다고 말함으로써 시작할 수 있습니다. 이는 베이지안 소프트웨어가 수집 된 데이터에 적용되기 전에 베이지안 소프트웨어가 올바르게 작동하는지 검증 하는 절차 의 기초입니다 . 세계.

그러나 사전 예측 분포에서 가져온 단일 데이터 집합 또는 전 세계에서 수집 한 단일 데이터 집합을 초과 조정하여 조건에 따라 데이터에 적용한 다양한 예측 측정이 미래의 데이터에 적용되는 동일한 예측 측정보다 더 잘 보입니다. 동일한 프로세스에 의해 생성됩니다. Richard McElreath의 베이지안 6 장은 과적 합에 전념합니다.

선행 효과, 특히 효과의 규모에 대한 정보를 제공하는 경우 초과 피팅의 심각성과 빈도를 줄일 수 있습니다. 엄청나게 큰 값에 대해 사전 확률을 소멸시킴으로써, 사후 분포가 당신이 전제로하는 데이터의 일부 특이한 측면에 의해 지나치게 흥분되는 것을 막아, 그것은 엄청나게 큰 영향을 시사 할 수 있습니다.

과적 합을 탐지하는 가장 좋은 방법은 Leave-one-Out Cross-Validation을 포함하며, 이는 실제로 관측치 세트에서 관측치를 남기지 않는 사후 분포로부터 근사 할 수 있습니다. 사용자가 조건으로하는 개별 "관측"[*]이 사후 분포에 지나치게 큰 영향을 미치지 않는다는 가정이 있지만, 일반 파레토 분포의 형태 모수 추정치의 크기를 평가하여 가정 할 수 있습니다. 중요도 샘플링 가중치 (후부 분포의 모든 추첨에 대해 평가 된 관측치의 로그 가능성에서 파생 됨)에 적합합니다. 이 가정이 충족되면 해당 관측이 생략 된 것처럼 각 관측치에 대한 예측 측정 값을 얻을 수 있습니다. 후부는 남은 관측치에 대한 조건부로부터 도출되었고, 후부 예측 분포는 생략 된 관측치에 대해 구성되었다. 생략 된 관측치에 대한 예측이 어려우면 모형이 처음부터 너무 적합했습니다. 이러한 아이디어는화장실의 패키지 와 같은 인용 포함 R에 대한, 여기거기를 .

단일 수로 증류하는 한, 50 % 예측 간격 내에있는 관측치의 비율을 계산하고 싶습니다. 이 비율이 절반을 초과하면 포함 표시기 함수의 노이즈를 줄이기 위해 소수 이상의 관측 값이 필요하지만 모형이 과적 합됩니다. (즉 overfit 있음) 다른 모델을 비교할 경우, 예상 로그 예측 밀도 (의해 계산되는 loo함수 화장실패키지)는 유연성이 뛰어난 모델이 유연성이 떨어지는 모델보다 사용 가능한 데이터에 더 잘 맞을 수 있지만 향후 데이터가 더 나 빠질 것으로 예상 할 수 있기 때문에 좋은 척도입니다 (IJ Good에서 제안). 그러나 이러한 아이디어는 모든 예측 조치 (실무자에게 더 직관적 일 수 있음)의 기대에 적용될 수 있습니다. loo 패키지 의 E_loo기능을 참조하십시오 .

[*] 계층 적 모델에서 관찰을 구성하는 요소를 선택해야합니다. 예를 들어, 새로운 환자 또는 기존 환자의 새로운 시점을 예측하고 싶습니까? 어느 쪽이든 할 수 있지만 전자 는 환자 별 매개 변수를 통합 할 가능성 함수를 다시 작성해야합니다.


2
매우 유익한 벤. 시간을내어 자세히 답변 해 주셔서 감사합니다. 범위에 대한 귀하의 질문에 대답하기 위해, 나는 새로운 환자를 언급하고 있습니다. 나는 원래의 질문 끝에 추가 한 일반적인 철학적 질문을 남겼습니다.
Frank Harrell

2
나는 이런 수표를 우리가 우리가 사용했던 이전의 분포로 만들거나 만들 수 없었던 우리의 이전 신념의 측면을 반영하는 것으로 생각하는 경향이 있습니다. 예를 들어, 원칙적으로 모든 매개 변수에 대해 공동 사전 PDF를 지정해야하지만 거의 항상 이것이 독립적 이라고 믿기 때문에가 아니라 지정하기 때문에 우선 순위 와 무관하다는 가정이 많이 있습니다. 다변량 의존 구조는 매우 어렵다. 예측과 같은 다변량 함수는 입력이 공동으로 합리적인지 여부를 사실을 알려주는 데 도움이됩니다.
벤 굿 리치

그것은 엄청난 의미가 있고 매우 통찰력이 있습니다. 나는 "극단적"인 대상, 즉 매우 낮거나 매우 높은 예측 값을 가진 대상에 대한 예측 정확도의 평가에 대해 약간의 문제가 남아 있습니다. [그리고 값 예측 한 Bayes의 경우 . 후방 분포가 이동하거나 후방 평균이 낮거나 높은 대상입니까?]
Frank Harrell

1
이것에 대한 또 다른 생각 : 많은 상황에서, 실무자들은 베이 즈 규칙 의 분모 에 대해 상당히 일관되고 논쟁의 여지가없는 신념을 가지고 있습니다. 예를 들어, 누군가이 암 또는 암을 앓고 있다면, 다른 것에 대한 조건없이 생존 시간의 분포는 무엇입니까? 그러나 Bayes Rule의 분자를 지정하는 것은 더 어렵고 더 논란의 여지가 있습니다. 따라서 모든 매개 변수를 통합하면 분모가 있다고 생각하는 것이 남게됩니다. 예측 검사 (이전 및 후)는 분자를 베이 즈 규칙의 분모와 정렬하는 일종의 방법입니다.
벤 굿 리치

1

과적 합은 모델이 훈련 세트에서는 잘 작동하지만 테스트 세트에서는 제대로 수행되지 않음을 의미합니다. IMHO, 그것은 우리가 사용하는 데이터와 모델 (또는 우리의 주관성)의 두 가지 출처에서 나옵니다.

케이

결과적으로, 우리가 빈번한 사람이라면 과적 응의 원천은 MLE에서 나옵니다. 우리가 베이지안이라면, 이것은 사전 분배의 (주관적인) 선택 (물론 우연의 선택)에서 비롯됩니다. 따라서 사후 분포 / 평균 / 중앙을 사용하더라도 처음부터 이미 과적 합하고이 과적 합이 수행됩니다. 사전 분배와 가능성을 적절히 선택하면 도움이되지만 여전히 모델이므로 과적 합을 피할 수는 없습니다.


잦은 접근과 베이지안 접근에 공통적 인 데이터 가능성을 무시하면 초과 선택이 이전의 선택에서 비롯된다는 생각은 통찰력이 있습니다. 이는 사전 적합성에 대한 모든 사전 데이터 사고를 수행 한 경우 사전 적합성을 확인할 방법이없고 과적 합을 확인할 수있는 방법이 없음을 의미합니다. 그러나 여전히 극단적 인 예측이 과적 합 (평균에 대한 회귀)을 보일 것이라는 가라 앉는 느낌이 남아 있습니다. 이전은 데이터의 극단이 아니라 매개 변수에 관한 것입니다.
Frank Harrell
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.