MLE vs MAP 추정, 언제 사용합니까?


14

MLE = 최대 가능성 추정

MAP = 사후 최대

MLE는 매개 변수가 주어진 관측 확률 (즉, 우도 함수) 로만 시작 하고 관측치에 가장 잘 맞는 매개 변수를 찾으려는 점에서 직관적 / 순진 합니다 . 그러나 사전 지식은 고려하지 않습니다.

MAP는 베이 즈 규칙을 통한 사전 지식을 고려하기 때문에보다 합리적으로 보입니다.

여기에 관련된 질문이 있지만 정답은 아닙니다. /signals/13174/differences-using-maximum-likelihood-or-maximum-a-posteriori-for-deconvolution-d

MAP이 훨씬 낫다고 생각합니다. 맞습니까? 그리고 언제 사용해야합니까?

답변:


18

문제 설정의 일부로 사전 확률이 제공되면 해당 정보를 사용하십시오 (예 : MAP 사용). 그러한 사전 정보가 제공되거나 가정되지 않으면 MAP가 가능하지 않으며 MLE이 합리적인 접근 방식입니다.


9
우선 순위가 평평한 MAP은 ML을 사용하는 것과 같습니다.
Tim

또한 수학적으로 "편리한"사전을 원한다면 상황에 맞는 켤레를 먼저 사용할 수 있습니다.
bean

8

베이지안은 당신에게 동의 할 것이고, 자주하는 사람은 그렇지 않을 것입니다. 이것은 의견, 관점 및 철학의 문제입니다. 한 방법이 항상 다른 방법보다 낫다고 주장하는 것은 통계 커뮤니티에 많은 해를 끼친다 고 생각합니다. Bayesian이 이전 버전보다 너무 강력하지 않은 한 많은 문제에 Bayesian 및 잦은 솔루션이 있습니다.


7
단순히 의견의 문제가 아닙니다. 하나의 추정기가 다른 것보다 나은 명확한 상황이 있습니다.
Tom Minka

2
@TomMinka 나는 한 가지 방법이 다른 방법보다 나은 상황이 없다고 결코 말하지 않았습니다! 나는 "MAP이 더 합리적으로 보인다"와 같은 OP의 일반적인 진술에 간단히 응답했다. 이러한 진술은 베이지안 방법이 항상 더 낫다는 주장과 동일합니다.
jsk

농담이 맞아. 베이지안과 잦은 접근 방식은 철학적으로 다릅니다. 따라서 엄격한 빈번한 사람들은 베이지안 접근이 용납 될 수 없다는 것을 알게 될 것입니다.
Michael R. Chernick

2

정확한 사전 정보가 있다고 가정하면 MAP에 문제에 대해 일대일 손실 함수가있는 경우 MAP가 더 좋습니다. 손실이 0이 아닌 경우 (그리고 많은 실제 문제에서는 그렇지 않음) MLE가 예상 손실을 낮출 수 있습니다. 이 경우, 두 가지 옵션 중 하나만 MAP 및 MLE로 제한하지 않는 것이 좋습니다. 둘 다 차선책이기 때문입니다.


매개 변수가 매개 변수화에 의존하는 경우 MAP 추정기는 "0-1"손실이 아닙니다. 때문에 제는 일반적으로 확률 1 일의 손실, 다시 근사치를 구성하려는 시도를 줄 것이다 모든 추정량을 기산일로 따옴표 0-1 매개 변수화 문제를 소개합니다
사람

1
필자의 관점에서, 제로원 손실은 파라미터 화에 의존하므로 불일치가 없다.
Tom Minka

0

@bean의 짧은 대답은 그것을 잘 설명합니다. 그러나 저는 Resnik and Hardisty가 시작한 논문 Gibbs Sampling의 1.1 절을 지적하고 싶습니다 . 나는이 논문에서 약간의 수정으로 몇 줄을 쓰고 있습니다 (이 답변은 완전성을 위해 OP가 알고있는 것들을 거의 반복하지 않습니다)

MLE

공식적으로 MLE는 관측 된 데이터를 생성 할 가능성이 가장 높은 모델 매개 변수를 선택합니다.

지도

추정 된 MAP는 관측 된 데이터가 주어질 가능성이 가장 높은 선택입니다. MLE과 달리 MAP 추정은 Bayes 's Rule을 적용하므로 추정치에서 매개 변수가 사전 확률 분포의 형태로 예상되는 것에 대한 사전 지식을 고려할 수 있습니다.

잡기

MLE 및 MAP 추정치는 각각 "최고"의 정의에 따라 최상의 추정치를 제공합니다. 그러나 MLE이든 MAP이든 단일 추정값을 사용하면 정보가 삭제됩니다. 원칙적으로, 매개 변수는 (도메인으로부터) 임의의 값을 가질 수 있습니다. 모수의 단일 추정값이 아니라 전체 분포를 고려하면 더 나은 추정치를 얻지 못할 수 있습니까? 그렇게하면 관측 된 데이터 X에서 연결할 수있는 매개 변수에 대한 모든 정보를 사용하게됩니다.

따라서이 캐치에서는 아무 것도 사용하지 않을 수 있습니다. 또한 bean과 Tim이 이미 언급했듯이 둘 중 하나 사용해야 할 경우 이전에 얻은 경우 MAP을 사용하십시오. 사전이 없으면 MAP이 MLE로 줄어 듭니다. Conjugate priors는 문제를 분석적으로 해결하는 데 도움이됩니다. 그렇지 않으면 Gibbs Sampling을 사용하십시오.


0

알다시피

θ^MAP=argmaxθlogP(θ|D)=argmaxθlogP(D|θ)P(θ)P(D)=argmaxθlogP(D|θ)P(θ)=argmaxθlogP(D|θ)log-likelihood+logP(θ)regularizer

이전은 정규화기로 취급 되며 선형 회귀 분석에서 Gaussin ( )과 같은 이전 분포를 알고 있다면이 를 추가하는 것이 좋습니다. 더 나은 성능을위한 정규화.exp(λ2θTθ)


-2

데이터가 적고 사용 가능한 사전 정보가있는 경우 "GO FOR MAP" 데이터가 많으면 MAP이 MLE로 수렴됩니다. 따라서 많은 데이터 시나리오의 경우 MAP보다는 항상 MLE을 수행하는 것이 좋습니다.


1
그렇게 간단하지 않습니다.
Michael R. Chernick

@MichaelChernick 잘못되었을 수 있습니다. 나는 대학원에서 이것을 읽었다. 내가 잘못한 곳을 바로 잡아달라고 요청합니다.
Heisenbug

잦은 접근 방식과 베이지안 접근 방식은 철학적으로 다릅니다. 주파수 접근법은 반복 샘플링을 기반으로 모델 매개 변수의 값을 추정합니다. 베이지안 접근법은 매개 변수를 임의의 변수로 취급합니다. 따라서 베이지안 접근 방식에서는 이전 분포와 데이터를 결합한 모수의 사후 분포를 도출합니다. MAP는 사후 분포의 최고 피크를 찾고 MLE는 데이터의 우도 함수 만보고 모수를 추정합니다.
Michael R. Chernick

@MichaelChernick-입력 해 주셔서 감사합니다. 그러나 충분한 데이터가 있으면 MAP은 MLE처럼 동작하지 않습니다. MAP 표현식을 어기면 MLE 용어도 얻습니다. 많은 양의 데이터를 사용하면 MAP의 MLE 용어가 이전 데이터를 대신합니다.
Heisenbug

이전 및 데이터 양에 따라 다릅니다. 그들은 큰 샘플에서 비슷한 결과를 줄 수 있습니다. 차이점은 해석에 있습니다. 내 의견은 그것이 당신이 만드는 것만 큼 간단하지 않다는 것을 보여주기위한 것입니다. 적은 양의 데이터를 사용하면 이전의 데이터가있는 경우 단순히 MAP을 선택하는 것이 아닙니다. 이전에 잘못 선택하면 후방 분포가 좋지 않아 MAP가 나빠질 수 있습니다.
Michael R. Chernick
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.