베이지안 방법이 과적 합하지 않는 것이 사실입니까?


25

베이지안 방법이 과적 합하지 않는 것이 사실입니까? (이 주장을하는 논문과 튜토리얼을 보았습니다)

예를 들어, 가우시안 프로세스를 MNIST (손으로 쓴 숫자 분류)에 적용하지만 단일 샘플 만 표시하는 경우 해당 단일 샘플과 다른 입력에 대해 이전 분포로 되돌 리지만 차이는 크지 않습니까?


그냥 생각하고 있었는데 "과적 합"을 정의 할 수있는 수학적으로 정확한 방법이 있습니까? 가능하면 가능성을 피하기 위해 기능을 가능성 함수 또는 이전에 기능을 빌드 할 수도 있습니다. 내 생각은이 개념이 "outliers"와 비슷하게 들린다는 것입니다.
확률 론적

답변:


25

아니요, 사실이 아닙니다. 베이지안 방법은 확실히 데이터를 과적 합합니다. 베이지안 방법이 과적 합에 대해보다 강력 해 지도록 몇 가지 사항이 있으며 더 취약하기도합니다.

이진 가설이 아닌 베이지안 가설의 조합 특성은 누군가가 귀무 가설 방법에 대한 "참"모델이 부족할 때 다중 비교를 허용합니다. 베이지안 후자는 변수 추가와 같은 모델 구조의 증가에 효과적으로 페널티를 주면서 적합도 향상을 보상합니다. 벌칙과 이득은 비 베이지안 방법에서와 같이 최적화가 아니라 새로운 정보에서 확률의 변화입니다.

이것은 일반적으로보다 강력한 방법론을 제공하지만 중요한 제약이 있으며 적절한 사전 배포를 사용하고 있습니다. 평평한 사전 방식을 사용하여 Frequentist 방법을 모방하려는 경향이 있지만, 이것이 적절한 해결책을 보장하지는 않습니다. 베이지안 방법에 과적 합에 관한 기사가 있으며, 죄가 베지 아가 아닌 방법에 대해 "평등 한"선행을 엄격하게 시작하여 시도하는 것처럼 보입니다. 어려움은 가능성을 정상화하는 데 이전이 중요하다는 것입니다.

베이지안 모델은 Wald의 단어 수용 능력면에서 본질적으로 최적의 모델이지만 숨겨진 bogeyman이 있습니다. Wald는 편집자가 너무 많은 정보를 넣은 것에 대해 편집자가 귀하를 방해하지 않도록 이전이 귀하의 실제 이전이 아니라 일부를 사용한다고 가정합니다. Frequentist 모델과 같은 의미에서 최적은 아닙니다. 빈번한 방법은 편차를 최소화하면서 편차를 최소화하는 최적화로 시작합니다.

이것은 정보를 버리고 Wald 의미에서 본질적으로 허용되지 않지만 비용이 많이 드는 최적화 방법입니다. 따라서 상용 모델은 편견이없는 경우 데이터에 최적으로 적합합니다. 베이지안 모델은 데이터에 편향되거나 최적이 아닙니다. 이것은 과적 합을 최소화하기 위해 만드는 거래입니다.

베이지안 모델은 일반적으로 데이터에 적합하지 않은 특별한 단계를 사용하여 편향되지 않는 한 본질적으로 편향된 모델입니다. 그들의 장점은 "진정한 모델"을 찾기 위해 대체 방법보다 적은 정보를 사용하지 않으며,이 추가 정보는 특히 샘플을 처리 할 때 베이지안 모델이 대체 모델보다 덜 위험하지 않다는 것입니다. 즉, 베이지안 방법을 체계적으로 "기만"하는 무작위로 추출 할 수있는 샘플이 항상 존재할 것입니다.

질문의 두 번째 부분과 관련하여 단일 샘플을 분석하는 경우 모든 부분에서 후부가 영구적으로 변경되며 두 번째 샘플이 없으면 해당 샘플의 모든 정보를 정확하게 취소하지 않는 한 이전으로 되돌아 가지 않습니다. 첫 번째 샘플. 적어도 이론적으로 이것은 사실입니다. 실제로 이전의 정보가 충분히 유익하고 관측에 충분한 정보가없는 경우 영향이 너무 작아서 유효 자릿수의 제한으로 인해 컴퓨터가 차이를 측정 할 수 없습니다. 컴퓨터가 후부의 변화를 처리하기에는 효과가 너무 작을 수 있습니다.

따라서 답은 "예"입니다. 특히 표본 크기가 작고 사전에 부적합한 경우 베이지안 방법을 사용하여 표본을 과적 합할 수 있습니다. 두 번째 대답은 "아니오"입니다. 베이 즈 정리는 이전 데이터의 영향을 결코 잊지 않습니다. 그러나 그 효과는 너무 작아서 계산 상 놓칠 수 없습니다.


2
에서 그들은 편견을 유지하면서 분산을 최소화하는 최적화로 시작합니다. , 그들은 무엇입니까?
Richard Hardy

(θ,σ2)σ

1
σ

11

알아야 할 것은 실제로 다른 모든 곳과 마찬가지로 베이지안 방법의 중요한 문제는 모델의 잘못된 사양 일 수 있다는 것입니다.

이것은 분명한 요점이지만, 여전히 이야기를 공유 할 것이라고 생각했습니다.

저학년 뒤의 짤막한 ...

베이지안 입자 필터링의 전형적인 적용은 로봇이 방을 따라 움직일 때 로봇의 위치를 ​​추적하는 것입니다. 센서 판독 값이 불확실성을 줄이면서 움직임이 불확실성을 확대합니다.

나는 이것을하기 위해 몇 가지 루틴을 코딩하는 것을 기억합니다. 나는 진정한 가치가 주어 졌을 때 다양한 소나 판독 값을 관찰 할 가능성에 대해 현명하고 이론적으로 동기 부여 된 모델을 작성했습니다. 모든 것이 정확하게 도출되고 아름답게 코딩되었습니다. 그런 다음 테스트 해 봅니다 ...

어떻게 된 거예요? 총 실패! 왜? 입자 필터는 센서 판독 값이 거의 모든 불확실성을 제거했다고 생각했습니다. 포인트 클라우드가 포인트로 무너졌지만 로봇이 그 시점에있을 필요는 없었습니다!

기본적으로, 나의 우도 기능은 나빴습니다. 내 센서 판독 값은 내가 생각했던 것만 큼 유익하지 않았습니다. 나는 너무 적합했다. 해결책? 나는 좀 더 가우시안 노이즈 (좀 더 임시적인 방식으로)를 섞어 포인트 클라우드가 무너지는 것을 멈추고 필터링은 다소 아름답게 작동했습니다.

사기?

Box가 유명한 것처럼 "모든 모델이 잘못되었지만 일부는 유용합니다." 거의 확실하게, 당신은 진정한 우도 기능을 갖지 못할 것이며, 그것이 충분히 벗어난 경우, 베이지안 방법은 끔찍하게 엉망이되고 지나치게 적합 할 수 있습니다.

사전을 추가해도 관측치가 IID가 아니라고 가정했을 때 발생하는 문제를 마술처럼 해결하지는 않습니다.


3
"언더 그레이드에서 비네팅 ... 베이지안 입자 필터링의 전형적인 적용은 로봇이 방을 따라 움직일 때 로봇의 위치를 ​​추적하는 것입니다." :)
Cliff AB
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.