개별 표본의 확률이 0 일 때 MLE가 왜 의미가 있습니까?


13

이것은 오래된 통계를 검토하는 동안의 이상한 생각이며 어떤 이유로 든 대답을 생각할 수없는 것 같습니다.

연속 PDF는 주어진 범위 내에서 관찰 값의 밀도를 알려줍니다. 즉, 예를 들어, XN(μ,σ2) 이면, 실현이 ab 사이에있을 확률 은 간단히 abϕ(x)dx 여기서 ϕ 는 표준 법선의 밀도입니다.

우리는 매개 변수의 MLE 추정을하고 생각할 때, 말할 μ , 우리는 말의 공동 밀도 쓰기 N , 확률 변수 X1..XN 로그 우도 wrt를 μ 분화하고 , 0으로 설정하고 μ 풉니 다 . 종종 주어진 해석은 "데이터가 주어졌으며,이 파라미터는이 밀도 기능을 가장 그럴듯하게 만든다"고한다.

나를 괴롭히는 부분은 이것입니다. 우리는 N rv 의 밀도를 가지고 있으며 , 샘플과 같이 특정 실현을 얻을 확률은 정확히 0입니다. 데이터가 주어지면 관절 밀도를 최대화하는 것이 왜 합리적입니까? 다시 실제 샘플을 관찰 할 확률은 정확히 0)입니까?

내가 올릴 수있는 유일한 합리화는 우리가 관찰 한 샘플 주변 에서 PDF를 가능한 한 최고점으로 하여 지역의 적분 (따라서이 지역에서 물건을 관찰 할 확률)을 높이고 자한다는 것 입니다.


1
같은 이유로 우리는 확률 밀도를 사용합니다. stats.stackexchange.com/q/4220/35989
Tim

밀도를 사용하는 것이 왜 합리적인지 이해합니다. 내가 이해하지 못하는 것은 발생 확률이 0 인 샘플을 관찰 할 때 조건부 밀도를 최대화하는 것이 왜 합리적인지입니다.
Alex

2
확률 밀도는 어떤 값이 다른 값보다 상대적으로 더 높은지를 알려줍니다.
Tim

질문에 완전히 대답 할 시간이 있다면 저와 다음 사람에게 더 도움이 될 것입니다.
Alex

다행스럽게도 가능성은 가능성이 아니기 때문입니다!
AdamO

답변:


18

임의의 샘플 Pθ(X=x) 의 확률은 0과 같지만 확률 분포를 이용하여 하나의 샘플이 실현됩니다. 그러므로 확률은 샘플과 그 가능성을 평가하기위한 잘못된 도구입니다. Fisher (1912)에 의해 정의 된 통계적 우도는 δ 가 0이 될 때 길이 δ 간격 내 에서 샘플 x 를 관찰 할 확률의 제한 인수에 근거 합니다 ( Aldrich, 1997 에서 인용 ) .δδ

Aldrich, J. (1997) 통계 과학 12, 162-176

이 확률을 δ 재 정규화 할 때 . 우도 함수의 용어는 Fisher (1921) 및 Fisher (1922)의 최대 우도에만 도입되었습니다.

비록 "가장 가능성이 높은 값"이라는 명칭을 받았고, 평평한 사전 확률로 역 확률 (Bayesian 추론) 원리를 사용했지만 Carl Friedrich Gauß는 1809 년에 정규 분포의 분산 모수에 대한 최대 우도 추정치를 이미 도출했습니다. Hald (1999) 는 Fisher의 1912 년 논문 이전에 몇 가지 다른 최대 가능성 추정치에 대해 언급했는데, 이는 일반적인 원칙을 설정했다.

(x1,,xn)

1ni=1nlogfθ(xi)
E[logfθ(X)]=logfθ(x)f0(x)dx
f0θθ
logf0(x)fθ(x)f0(x)dx=logf0(x)f0(x)dxconstantin θlogfθ(x)f0(x)dx
fθ


답변 해주셔서 감사합니다. KL 논증에 대해 조금 확장 할 수 있습니까? 나는 이것이 어떻게 즉각적인 지 알지 못한다.
Alex
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.