최대 우도 추정 (MLE)과 베이 즈 정리 비교


12

베이지안 정리에서 이고 내가 읽고있는 책에서 는 가능성 ,하지만 난 그냥있어 가정 조건부 확률 의 주어진 , 그렇지? P(X|Y)의 X, Y

p(y|x)=p(x|y)p(y)p(x)
p(x|y)xy

최대 우도 추정 시도는 극대화 오른쪽? 그렇다면 가 모두 임의의 변수 이기 때문에 혼란 스럽 습니다. 극대화하기 위해 그냥 찾을 수 있습니다 ? 또 하나의 문제는,이 2 개의 랜덤 변수가 독립적이라면 는 일뿐입니다 . 그러면 를 최대화하는 것은 를 최대화하는 것 입니다.X , Y , P ( X | Y ) Y P ( X | Y ) P ( X ) P ( X | Y ) P ( X )p(x|y)x,yp(x|y) y^p(x|y)p(x)p(x|y)p(x)

또는 는 일부 매개 변수 , 즉 의 함수 이며 MLE 은 최대화 할 수있는 를 찾으려고 합니까? 또는 조차도 실제로 임의의 변수가 아닌 모델의 매개 변수이므로 가능성을 최대화하는 것은 ?θ P ( X | Y , θ ) θ P ( X | Y ) Y Yp(x|y)θp(x|y;θ)θp(x|y)yy^

최신 정보

저는 기계 학습의 초보자이며이 문제는 기계 학습 자습서에서 읽은 내용과 혼동됩니다. 여기에 관찰 된 데이터 세트 주어지면 목표 값은 데이터 세트에 모델을 맞추려고합니다. I가 주어지지 않도록 , 명명 된 분포의 형태 갖는 파라미터가 이며 , 그리고 이것이 가정 사후 확률 , 오른쪽?{ Y 1 , Y 2 , . . . , y n } x y W θ p ( y | x ; θ ){x1,x2,...,xn}{y1,y2,...,yn}xyWθp(y|x;θ)

이제 값을 추정하기 위해 MLE을 사용합니다. 좋아, 여기 내 문제가 온다. 나는 가능성이 라고 생각한다 . 가능성을 최대화한다는 것은 올바른 와 선택해야한다는 것을 의미합니다 .p ( x | y ; θ ) θ yθp(x|y;θ)θy

가능성에 대한 나의 이해가 틀렸다면 올바른 방법을 보여주십시오.


혼란은 이것이라고 생각합니다. 베이 즈 정리 는 질문의 시작 부분에 제공하는 조건부 확률의 조작입니다. 베이지안 추정 매개 변수 추정을 확인하기 위해 베이 즈 정리를 사용합니다. 후자의 경우에만 최대 우도 추정 (MLE) 및 매개 변수 세타 등이 작용합니다.
Zhubarb

@Berkan, 실제로 주어질 가능성을 알아 내려고 노력합니다 . x,y,θ
avocado

1
나는 매개 변수 추정 에서이 훌륭한 강의 슬라이드 세트를 살펴 보는 것이 좋습니다 .
Zhubarb

1
읽어야 할 또 다른 위대한 주제는 Empirical Bayes 'Estimators입니다. 우리는 방금 내 수업에 대해 배웠습니다 :) biostat.jhsph.edu/~fdominic/teaching/bio656/labs/labs09/…
bdeonovic

답변:


16

핵심 오해는 질문의 전반부에서 묻는 질문에서 비롯된 것 같습니다. 나는 MLE과 베이지안 추론 패러다임과 대조적 으로이 대답에 접근합니다. MLE에 대한 매우 접근 가능한 논의는 Gary King, Unifying Political Methodology의 1 장에서 찾을 수 있습니다 . Gelman의 베이지안 데이터 분석 은 베이지안 측면에 대한 세부 사항을 제공 할 수 있습니다.

베이 즈 정리에서 그리고 내가 읽고있는 책에서 는 가능성은 있지만 가 주어진 조건부 확률이라고 가정합니다 . P(X|Y)의 X, Y

p(y|x)=p(x|y)p(y)p(x)
p(x|y)xy

가능성 조건부 확률입니다. 베이지안에게이 공식은 데이터 와 이전 주어진 모수 의 분포를 설명합니다 . 그러나이 표기법은 의도를 반영하지 않으므로 매개 변수에 ( , )를 사용하고 데이터에 를 사용합니다.x p ( y ) θ y xyxp(y)θyx

그러나 업데이트는 일부 분포 에서 가 관찰 됨을 나타냅니다 . 데이터와 매개 변수를 Bayes 규칙의 적절한 위치에 배치하면 이러한 추가 매개 변수가 Bayesians에 아무런 문제가되지 않습니다. p ( x | θ , y ) p ( θ | x , y ) = p ( x , y | θ ) p ( θ )xp(x|θ,y)

p(θ|x,y)=p(x,y|θ)p(θ)p(x,y)

나는이 표현이 당신이 업데이트 한 후에 믿습니다.

최대 우도 추정은 를 최대화하려고합니다 .p(x,y|θ)

예. MLE는 즉 라는 용어를 알 수없는 것으로 취급합니다. (알 수없는) 상수. 대조적으로, 베이지안 추론은 를 정규화 상수로 취급 하고 (따라서 확률이 단일화에 통합 / 통합됨) 를 핵심 정보로한다. 우리가 생각할 수있는 우리가 가장 그럴듯한 생각이 지역에서 "너무 멀리 떨어져 방황"에 대한 최적화 절차에 대한 페널티를 침해하는 방법으로.p ( θ , y )

p(x,y|θ)p(θ|x,y)
p(θ,y)p(x)p(x)p(θ,y)p(θ,y)

그렇다면 는 임의의 변수 이기 때문에 혼란 스럽 습니다. 극대화하기 위해 바로 찾을 것입니다 ?x,y,θp(x,y|θ)θ^

MLE에서 는 알려지지 않았지만 추론 될 수있는 고정 된 수량으로 간주되며 임의의 변수는 아닙니다 . 베이지안 추론은 를 임의의 변수로 취급 합니다. 베이지안 추론 풋 확률 밀도 함수 에서 와 확률 밀도 함수를 얻을 밖으로 MLE 같이, 오히려 모델의 포인트 요약보다. 즉, 베이지안 추론은 전체 범위의 매개 변수 값과 각 확률을 살펴 봅니다. MLE는 가 모델에 주어진 데이터에 대한 적절한 요약 이라고 주장합니다 .θ^θθ^


1
답변 주셔서 감사합니다, 내 게시물을 업데이트, 내 업데이트를 참조하십시오.
avocado

이 업데이트는 질문에 대한 나의 이해를 근본적으로 바 꾸었습니다. 처음에는 를 매개 변수로 사용하고 를 데이터 로 생각한다고 생각했습니다 . 이제 는 데이터이며 와 사이의 관계를 설명하는 모델을 작성하는 데 관심이있는 것으로 보입니다 . 시간이 있으면 응답을 수정하겠습니다. yx(x,y)xy
Sycorax는 Reinstate Monica

+1 이것은 여전히 ​​좋은 대답입니다. 질문의 변경 사항에 맞게 수정하더라도 크게 그대로 유지하기를 바랍니다.
whuber

업데이트 된 질문을 반영하여 응답을 업데이트했습니다. 이러한 세부 사항이 도움이되기를 바랍니다. 나는 내가 언급 한 참고 문헌을 참조하는 것이 좋습니다. @whuber가 여전히 승인하기를 바랍니다. ;-)
Sycorax는 Reinstate Monica가

업데이트 해 주셔서 대단히 감사합니다. 대한 분포 형태를 선택했지만 를 추정하려고 할 때 를 관측 된 데이터로 취급해야합니다 . p(y|x)x,yθ
avocado

3

일반적으로 는 매개 변수 의 함수입니다 . 베이 즈 정리의 다음과 같은 재구성을 고려하십시오.p(x|y)y

p(θ|x)=p(x|θ)p(θ)p(x)

또는 더 명확하게 (가능성의 개념과 관련하여) :

p(θ|x)=L(θ;x)p(θ)p(x)

구체적인 예를 들어, 모델을 고려하십시오

X|θBinomial(θ)θBeta(α,β)

따라서 일반적으로 는 랜덤 변수가 아니라 . yx
avocado

Y는 일반적으로 X의 pdf에있는 매개 변수입니다. 잦은 설정에서 y는 일반적으로 고정 된 값입니다. 베이지안 설정에서 Y는 그 자체가 무작위 변수입니다 (예제에서와 같이). X | Y는 또한 당신이 의미하는 의미에서 조건부 확률 일 수도 있습니다. 저는 그 수량이 가능성이라고 불리는 이유에 대한 동기를 부여하려고했습니다.
David Marx

대답에 주어진 구체적인 예와 관련하여 는 실제로 임의 변수이지만 분포에서는 매개 변수로 간주됩니까? θX
avocado

임의의 변수라는 것이 매개 변수가 될 수 없다는 의미는 아닙니다. :) 베이지안 확률의 놀라운 세계에 오신 것을 환영합니다
데이비드 막스

0
  • "... 는 가능성이라고합니다 ..."p(x|y)

p(x|y)x가 주어진 y의 가능성입니다 . 그것이 무엇인지 가능성을 말하는 것이 중요합니다. 그리고 그렇습니다, 그것은 에 주어진 조건부 확률입니다 .xy

  • "...이 두 랜덤 변수가 독립적이라면 는 일 뿐입니 까? 그렇다면 를 최대화하는 것은 를 최대화하는 것입니다 ."p(x|y)p(x)p(x|y)p(x)

이들이 독립적 인 경우, 즉 이면, 는 대해 일정 합니다. 앞에서 쓴 내용과 관련하여 최대화하려는 내용을 지정하지 않기 때문에 여기서주의하십시오. 나는 대해 최대화하고 있다고 가정합니다 .p(x|y)=p(x)p(x)yy

  • 또는 는 일부 매개 변수 의 함수 , 즉 이며 MLE 은 최대화 할 수있는 를 찾으려고합니다. ? 또는 y조차도 실제로 임의의 변수가 아닌 모델의 매개 변수이므로 가능성을 최대화하는 것은 ? ... 를 찾는 것입니다 .θ P ( X | Y , θ ) θ P ( X | Y ) Yp(x|y)θp(x|y;θ)θp(x|y)y^

를 도입 하면이 문제가 완전히 새로운 문제가됩니다. 일반적으로이 질문에 대한 대부분의 대답은 '의존적'인 것 같습니다. 원하는 경우 매개 변수를 로 표시 하고 관련하여 최대화 할 수 있습니다. 마찬가지로, 문제에 접근하는 현명한 방법이라면 매개 변수 와 관련하여 를 최대화하는 상황이있을 수 있습니다 .y p ( x | y ; θ ) θθyp(x|y;θ)θ


내가 소개하는 이유 는 이것입니다. 내가 읽고있는 기계 학습 책에서 데이터 세트 주어 지고 는 해당 목표 값이므로 모델을이 데이터 세트에 맞추기 위해 MLE을 사용하여 를 추정 할 수 있습니다 모델의 매개 변수는 무엇입니까? x y θθxyθ
avocado

0

STAN 참조 매뉴얼에서 :

사전이 균일하면, 사후 모드는 모수의 최대 우도 추정치 (MLE)에 해당합니다. 사전이 균일하지 않은 경우, 사후 모드는 때때로 최대 사후 (MAP) 추정치라고합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.