최대 가능성 또는 한계 가능성 중 어느 것이 더 좋은가?


13

회귀 분석을 수행하는 동안 다음과 같은 정의로 가면 : 부분 우도, 프로파일 우도 및 한계 우도의 차이점은 무엇입니까?

최우
L 극대화 찾기 β 및 θ (β, θ | 데이터).

, Marginal Likelihood
우리는 β에 조건부 θ의 확률 분포를 식별 할 수 있다는 사실을 이용하여 가능성 방정식에서 θ를 통합합니다.

더 나은 방법론은 무엇이며 왜 최대화해야합니까?

답변:


14

이들 각각은 다른 해석으로 다른 결과를 제공합니다. 첫 번째 는 가장 가능성이 높은 쌍인 β , θ 를 찾고, 두 번째 는 (거의) 가장 가능성 있는 β 를 찾습니다 . 배포판이 다음과 같다고 상상해보십시오.

    β=1β=2
θ=10.0 0.2 
θ=20.1 0.2 
θ=30.3 0.2 

그런 다음 최대 우도 답변은 ( )이고 최대 한계 우도 답변은 (따라서 보다 , ).θ = 3 β = 2 θ P ( β = 2 ) = 0.6β=1θ=3β=2θP(β=2)=0.6

나는 일반적으로 한계 가능성이 종종 당신이 원하는 것이라고 말하고 싶습니다. 매개 변수 의 값에 정말로 신경 쓰지 않는다면 , 그것들을 넘어서야합니다. 그러나 아마 실제로 이러한 방법은 매우 다른 결과를 얻을하지 않습니다 - 그들이 할 경우, 그것은 솔루션의 일부 기본 불안정, 서로 다른 조합 등 여러 모드를 가리킬 수 , 모두 비슷한 예측을 줄 것이다.β θθβθ


최대 / 한계 가능성 방법에 대한 다른 결과를 찾았으므로 질문입니다. 필자의 경우 두 결과가 서로 다른 해석을 제공하지만 가능한 결과를 제공한다고 말합니다.
Ankit Chiplunkar

5

나는이 질문을 지금 당장 잡고있다. 도움이 될만한 결과가 있습니다. 선형 모형을 고려하십시오

y=Xβ+ϵ,ϵN(0,σ2)

여기서 및 및 가 관심있는 매개 변수입니다. 공동 가능성β σ 2yRn,βRp,βσ2

L(β,σ2)=(2πσ2)n/2exp(||yXβ||22σ2)

공동 가능성 수율 최적화

β^=X+y

σ^2=1n||r||2

여기서 의 의사 역행렬이고 및 착용감 잔차 벡터이다. 참고에 우리가 친숙한 자유도가 비 보정 대신에 . 이 추정기는 유한 샘플 경우에 편향되는 것으로 알려져 있습니다. X R = Y - X β σ 2 1 / n은 1 / ( N - P )X+Xr=yXβ^σ^21/n1/(np)

이제 와 에 대해 최적화하는 대신 out을 통합하고 결과 통합 가능성에서 를 추정합니다 :σ 2 β σ 2βσ2βσ2

σ^2=maxσ2RpL(β,σ2)dβ

기초 선형 대수와 가우스 적분 공식을 사용하면

σ^2=1np||r||2

이것은 자유도 보정을 통해 편향되지 않으며 일반적으로 공동 ML 추정치보다 선호됩니다.

이 결과로부터 통합 가능성에 본질적으로 유리한 것이 있는지 물을 수 있지만, 그 질문에 대한 일반적인 결과는 모릅니다. 합의는 통합 ML이 대부분의 추정 문제에서 불확실성을 설명하는 데 더 나은 것으로 보인다. 특히 다른 모수 추정치 (암시 적으로도)에 의존하는 수량을 추정하는 경우 다른 모수에 통합하면 불확실성이 더 잘 설명됩니다.


1
이것은 흥미 롭다. 그러나 " 통합 "은 유효하지 않은 한계 분포를 사용 한다는 사실 과 다른 것에 비해이 (부적절한) 한계를 사용하는 데 대한 명백한 정당성이 없기 때문에 약간 고민하고 있습니다. 이러한 문제에 대해 어떻게 생각하십니까? β
whuber

1
@whuber 귀하의 우려를 공유하고 준비된 답변이 없습니다 만, 소외 될 가능성은 이전에 균등 한 부적절한 후손 일 뿐이 므로 이것이 "객관적인 베이지안"접근법과 관련이 있다고 생각합니다. 와 같은 매개 변수 가 사후 통합이 가능한 한 사전 분배가 부적절한 경우에는 신경 쓰지 않습니다 . βββ
Paul

실제로이 게시물 과 그에 대한 의견을 바탕으로 한계 ML이 아닌 통합 ML이 우리가 여기서하는 일에 대한 올바른 용어라고 생각합니다. 이에 따라 편집되었습니다.
Paul

1
+1 나는이 파티에 꽤 늦었다는 것을 알고 있지만, REML이하는 것과 정확히 일치하지 않는 유니폼을 입어 고정 효과를 통합하지는 않는다. 따라서 실제로 REML 추정값을 얻었으므로이 df 보정은 정확히 REML이 더 작은 샘플에 더 좋은 이유는 무엇입니까?
jld

@Chaconne 네,이 게시물은 REML을 이해하려고 동기를 부여했습니다! 나는 공식 통계 교육을 거의받지 않았기 때문에 이것을 얻는 것은 나에게 새로운 일이었다.
Paul

4

이것은 일반적으로 선택의 문제가 아닙니다. 추정에 관심이있는 경우 (예 : 가 모델 하이퍼 파라미터이고 가 잠복 변수 인 경우) 대한 단일 값이없고 대신 알려진 의 분포 가있는 경우 통합하십시오 . 한계 확률은 확률 밀도 의해 가중치가 부여 된 의 다른 값에 대한 가중치의 평균으로 생각할 수 있습니다 . 이제 훈련 샘플을 로 사용하여 가 사라 졌으므로 한계 확률 wrt 최적화 할 수 있습니다.β θ θ θ θ θ i p ( θ i ) θ d a t a βββθθθθθip(θi)θdataβ.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.