당신은 본질적으로 매우 흥미로운 질문을하고 있습니다 : "MAP Bayesian" Maximum 사후 추정 또는 "Real Bayesian"을 사용하여 예측해야합니까 ?
P(H)=0.22080
argmaxθf(x|θ)
그렇게함으로써 예측 오차 (0-1 손실)를 최소화 할 수 있음을 증명하는 것은 어렵지 않습니다. 증명은 통계 학습 소개의 ~ 페이지 53에서 찾을 수 있습니다 .
이것을 "실제 베이지안"접근 방식이라고하는 다른 방법이 있습니다. 기본적으로 "가장 높은 확률로 결과를 선택하지 말고 확률 적으로 모든 경우를 고려하십시오". 따라서 누군가가 "다음 100 번 예측"플립을 요청하면 100 개의 이진 결과를 제공 할 때 일시 중지해야합니다. 각 결과에 대한 확률 정보가 사라집니다. 대신 결과를 알고 난 후에 무엇을하고 싶은지 물어야합니다.
손실 기능이 있다고 가정합니다 (예 : 0-1 손실에는 필요하지 않습니다. 예를 들어 손실 기능은 머리를 놓치면 1 달러 를 지불해야 하지만 꼬리를 놓치면 지불해야 함) 예측에 $ 5, 즉 불균형 손실)이 있으면 전체 분포에 대한 손실을 최소화하기 위해 결과 분포에 대한 지식을 사용해야합니다.
∑x∑yp(x,y)L(f(x),y)
즉, "단계별 방식"대신 손실 분포에 대한 지식을 통합하여 예측을 얻고 다음 단계를 수행하십시오.
또한 가능한 많은 결과가있을 때 무엇을 갖게 될지에 대한 직관이 매우 좋습니다. 결과 수가 많고 확률 질량이 널리 퍼져 있으면 MAP 추정이 제대로 작동하지 않습니다. 당신이 100 개의 부수적 인 주사위를 가지고 있고 실제 분포를 알고 있다고 생각하십시오. 여기서 이고 입니다. 이제 MAP으로 무엇을하십니까? 항상 다른 쪽에 가장 큰 확률을 가지므로 항상 첫 번째면 을 얻는 것으로 추측합니다 . 그러나 당신은 시간의 를 잘못 얻을 것입니다 !P ( S 2 ) =를 P ( S 3 ) = P ( S 100 ) = 0.9 / 99 = 0.009090 S (1) 90 %의P(S1)=0.1P(S2)=P(S3)=P(S100)=0.9/99=0.009090S190%