MAP은 대한 솔루션입니다

10

내가 건너 온 이 슬라이드 온라인 교육 과정 중 하나 (슬라이드 # 16 & # 17). 강사는 최대 후방 추정치 (MAP)가 실제로 솔루션 인 방법을 설명하려고했습니다 . 여기서 는 참 매개 변수. $L(\theta) = \mathcal{I}[\theta \ne \theta^{*}]$ $\theta^{*}$

누군가 이것이 어떻게 진행되는지 설명해 주시겠습니까?

편집 : 링크가 끊어 질 경우 슬라이드를 추가했습니다.

— 허니 배거
소스

3

공유 한 슬라이드를 살펴보면 MAP 추정을 사용하여 평균, 모드 및 중앙값과 같은 사후의 다른 속성을 추정하는 방법을 설명하는 것 같습니다. 나는 Stephen M. Kay의 저서, 통계 신호 처리의 기초 에서 제시된 베이지안 추정기 일반의 맥락에서 이것을 설명하려고 노력할 것이다 .

매개 변수 추정과 관련된 세 가지 유형의 위험 (예 : 비용 함수)을 고려하여 시작하겠습니다 . $\theta$

$C(e) = e^2$

$C(e) = |e|$

$if -\delta < e < \delta, C(e)=0$ ; 그렇지 않으면 $C(e)=1$

여기서 에서 는 추정값이고 는 실제 매개 변수입니다. 베이지안 추정에서 목표는 예상되는 위험을 최소화하는 것입니다. $e = \theta - \hat{\theta}$ $\hat{\theta}$ $\theta$

$E[C(e)]= \int_X \int_{\theta} C(e)p(X,\theta)d\theta dX = \int_X \left[\int_\theta C(e)p(\theta|X)d\theta\right] p(X)dX$

우리는 만 신경 내부 적분 중점을 둘 것 입니다. $\theta$ $\min_{\theta}\int_\theta C(e)p(\theta|X)d\theta$

이제, 우리가 어떤 를 선택 하느냐에 따라 추정자는 후자의 다른 속성을 우리에게 줄 것입니다. 예를 들어, 첫 번째 경우 를 선택하면 대한 최소화 는 평균입니다. 당신이 의문의 여지가 인디케이터 함수 와 관련되어 있기 때문에 위에서 언급 한 세 번째 위험을 다룰 것입니다 ( 대해 생각하면 동등합니다) 표시기를 사용하여). $C(e)$ $C(e) = e^2$ $\theta$ $\int_\theta C(e)p(\theta|X)d\theta$ $I[\hat{\theta}\ne \theta]$ $\delta\rightarrow 0$

위의 사례 3의 경우 :

$\int_\theta C(e)p(\theta|X)d\theta = \int_{-\infty}^{\hat{\theta}-\delta}p(\theta|X)d\theta + \int_{\hat{\theta}+\delta}^{\infty}p(\theta|X)d\theta = 1 - \int_{\hat{\theta}+\delta}^{\hat{\theta}+\delta}p(\theta|X)d\theta$

이는 가 의 모드에 해당 할 때 에 대해 최소화됩니다 . $\delta \rightarrow 0$ $\hat{\theta}$

— 이드 나비 드
소스

2

훌륭한 설명 감사합니다. 또한, 미래 독자들은 비슷한 교과서에서 같은 내용을 읽을 수 있습니다. Kevin Murphy 의 Machine_Probabilistic Perspective의 5 장

— honeybadger

이 제한 인수의 세부 정보를 지정할 수 있습니까? 가 0이 될 때 절차 의 한계 또는 후방 손실의 한계를 의미합니까?

δ

$\delta$

δ

$\delta$

— 시안

기대치 의 한계를 언급하고 있습니다.

E [C (e)]

$E[C(e)]$

— idnavid

10

특정 경우에 매개 변수 공간 는 유한 또는 셀 수없이 무한하다 인디케이터 손실과 관련된 사후 손실은 잘못된 정확한 의 사후 확률이 최대화 될 때 최소화됩니다 . 이는 가 사후 분포 또는 MAP의 모드임을 의미합니다. $\Theta$

Θ = {θ_{1}, θ_{2}, \dots}

$\Theta=\{\theta_1,\theta_2,\ldots\}$

P (\hat{θ} \neq θ | x)

$\mathbb{P}(\hat{\theta}\ne\theta|x)$

P (\hat{θ} = θ | x)

$\mathbb{P}(\hat{\theta}=\theta|x)$

\hat{θ}

$\hat{\theta}$

그러나 이러한 MAP와 손실의 연관성은 대부분의 설정에서 잘못되었다는 점에서 "민속 정리"입니다. 즉, 모든 대해 이고 MAP는 궁극적으로 지배적 조치의 선택에 달려 있음을 지적하는 Druihlet and Marin (BA, 2007) 의 결과와 충돌합니다 . (Lebesgue 측정 값은 기본적으로 암시 적으로 선택됩니다.) $0-1$ $\mathbb{P}(\hat{\theta}=\theta|x)=0$ $\hat{\theta}$

예를 들어, Evans와 Jang는 2011 년 arXiv 논문 을 게시 하여 MAP, 최소 상대 깜짝 (또는 최대 프로파일 가능성) 추정기 및 손실 함수 간의 연결에 대해 논의했습니다. 이 문제의 핵심은 MAP 추정 기나 MLE 모두가 적어도 연속적인 파라미터 공간에서 의사 결정 이론적 접근에 의해 정당화 될 수 없다는 것입니다. 그리고 2007 년에 Druihlet과 Marin이 시연 한 것처럼 매개 변수 공간에서 임의로 선택한 지배적 측정 값이 MAP의 가치에 영향을 미칩니다. 이는 손실 함수 한정된 경우에 시작됩니다.

L (θ, d) = I {Ψ (θ) \neq d) / π_{Ψ} (Ψ (θ))

$\mathrm{L}(\theta,d) = \mathbb{I}\{\Psi(\theta) \ne d) / \pi_\Psi(\Psi(\theta))$ 여기서 그들은 변환 Ψ (θ)의 추정을 d에 의해 고려하고,이 변환 이전의 한계에 의해 역으로 가중된다. 항등 변환의 특별한 경우에,이 손실 함수는 베이 추정기로 MLE을 유도합니다. 일반적인 경우, Bayes 추정기는 최대 프로파일 가능성 추정기 (LRSE)입니다. 그러나이 손실 함수는 셀 수없이 무한한 (그리고 명백하게 연속적인) 매개 변수 공간으로 일반화되지 않으며 이러한 설정에서 작성자는 LRSE 만 Bayes 프로 시저의 한계로 제공 할 수 있습니다. 계산 가능한 경우에 채택 된 손실 함수는 예를 들어

L (θ, d) = I {Ψ (θ) \neq d} / max {η, π_{Ψ} (Ψ (θ))}

$\mathrm{L}(\theta,d) = \mathbb{I}\{\Psi(\theta) \ne d\} / \max\{\eta,\pi_\Psi(\Psi(\theta))\}$ 바운드가 0으로 감소합니다. 연속적인 경우, 표시기가 더 이상 작동하지 않으므로 저자가 선택한 것은 직경 λ가 0이되는 볼의 파티션 선택에 의해 공간 Ψ (Θ)을 이산하는 것입니다. Druihlet 및 Marin의 정신에서이 선택은 메트릭 (및 추가 규칙 조건)에 따라 다릅니다. 또한, LRSE 자체는 는 하나를 제외하고 밀도에 대해 선택된 버전에 따라 달라집니다 (지배 측량에없는 경우). 강요하며 사방 베이 즈 평등 사방 및

max_{ψ} π_{ψ} (ψ | x) / π_{ψ} (θ)

$\max_{\psi}\pi_\psi(\psi|x)/\pi_\psi(\theta)$

π_{ψ} (ψ | x) / π_{ψ} (θ) = f (x | ψ) / m (x)

$\pi_{\psi}(\psi|x)/\pi_\psi(\theta)=f(x|\psi)/m(x)$

f (x | ψ) = \int_{{θ; Ψ (θ) = ψ}} f (x | θ) π (θ) d θ

$f(x|\psi)=\int_{\{\theta;\Psi(\theta)=\psi\}}f(x|\theta)\pi(\theta)\mathrm{d}\theta$

m (x) = \int f (x | θ) π (θ) d θ

$m(x)=\int f(x|\theta)\pi(\theta)\mathrm{d}\theta$ 정신에서 우리 새비지 - 디키 역설 종이 .

Robert Bassett과 Julio Deride 는 2016 년에 베이지안 의사 결정 이론 내에서 MAP의 위치를 논의 하는 논문을 발표했습니다 .

"… 우리는 0-1 개의 손실을 가진 Bayes 추정기의 한계로 일반적으로 인정되는 MAP 추정기 개념에 대한 반례를 제공합니다."

저자들은 추가 예방 조치없이이 속성을 언급하는 나의 책 The Bayesian Choice를 언급하고 있으며, 나는 이와 관련하여 부주의 한 것에 전적으로 동의합니다! 어려움은 최대치의 한계가 반드시 한계의 최대치 인 것은 아니다. 이 논문은 매개 변수에 의존하지 않는 샘플링 분포와 관련된 상기와 같은이 효과에 대한 예를 포함한다. 여기에 제안 된 충분한 조건은 후방 밀도가 거의 확실하거나 준 분쇄되어 있다는 것입니다.

버거와 루카 의 MAP 추정기의 대안적인 특성은 비록 인공적이지만 다른 유형의 손실 함수 하에서 적절한 베이 즈 추정기로서 참조하십시오 . 이 논쟁적인 논문 의 저자 는 이전에 근거한 거리에서 시작합니다. 브레 그먼 거리 (Bregman distance)라고하며, 이는 이전에 따라 2 차 또는 엔트로피 거리 일 수있다. 이 Bregman 거리와 2 차 거리의 혼합 인 손실 함수 정의

| | K (\hat{u} - u) | |^{2} + 2 D_{π} (\hat{u}, u)

$||K(\hat u-u)||^2+2D_\pi(\hat u,u)$ Bayes 추정기로 MAP을 생성합니다. 여전히 지배적 조치에 대해 의문을 가질 수 있지만 손실 함수와 결과 추정량은 지배적 조치의 선택에 분명하게 의존합니다 ... (손실은 이전에 따라 다르지만 그 자체로는 단점이 아닙니다.)

— 시안
소스

1

5 장, 베이지안 통계, 기계 학습 : 확률 적 관점-Murphy 의이 문제에 대해 언급 한 내용을 요약하겠습니다 .

일부 데이터 관찰하고 매개 변수 의 사후 분포에 대해 언급하고 싶습니다 . 이제 MAP으로 널리 알려진이 사후 분포 모드의 포인트 추정에는 몇 가지 단점이 있습니다. $X$ $p(\theta|X)$

평균 또는 중앙값과는 달리, 이것은 추정되는 동안 다른 모든 점을 고려하지 않는다는 점에서 '비정형적인'점입니다. 평균 / 중앙을 추정하는 경우 다른 모든 사항을 고려합니다.

따라서 예상대로, 뒤틀림이 심하게 분포 된 MAP에서 MAP (및 확장하여 MLE)은 실제로 후방을 나타내지 않습니다.

그렇다면 평균 / 중앙 / 모드와 같은 점 추정값을 사용하여 사후를 어떻게 요약합니까?

이것은 사람들이 의사 결정 이론을 사용하는 곳입니다. 본질적으로 손실 함수 는 진실이 이고 가 우리의 추정치 인 경우에 발생하는 손실 입니다. 다양한 손실 함수를 선택할 수 있으며 여기서 목표는 손실 함수의 예상 값을 최소화하는 것입니다. $L(\theta, \hat{\theta})$ $\theta$ $\hat{\theta}$

손실 함수 가 로 설정된 경우, 표시 할 수없는 모든 시간 동안 표시기 기능 진실을 추정 한 다음 손실 함수 wrt 의 예상 값을 최소화하는 것은이 함수 최대화 wrt . 이것으로부터 포스터 모드가 손실 함수의 예상 값을 최소화한다고 추측하는 것이 직관적입니다. 이 계산에 대한 자세한 내용은 위의 답변 에서 확인할 수 있습니다 . $L(\theta, \hat{\theta})$ $\mathbb{I}(\hat{\theta}\ne\theta|x)$ $\theta$ $\mathbb{I}(\hat{\theta}=\theta|x)$ $\theta$

— 허니 배거
소스