GLM에서 포화 모델의 로그 가능성은 항상 0입니까?


14

일반화 된 선형 모형의 출력의 일부로, 널 및 잔차 편차가 모형을 평가하는 데 사용됩니다. : 나는 종종 예를 들어, 포화 모델의 로그 가능성의 표현이 양의 공식을 참조 /stats//a/113022/22199 , 로지스틱 회귀는 어떻게 포화 모델을 얻기 위해

내가 이해하는 한 포화 된 모델은 관측 된 반응에 완벽하게 맞는 모델입니다. 따라서 내가 본 대부분의 장소에서 포화 모형의 로그 우도는 항상 0으로 표시됩니다.

그러나 이탈 공식이 제시된 방식은 때때로이 양이 0이 아니라는 것을 암시합니다. (항상 제로인 경우 왜 포함하지 않아도됩니까?)

어떤 경우에는 0이 아닌 것일 수 있습니까? 0이 아닌 경우 왜 이탈을위한 공식에 포함합니까?

답변:


18

실제로 log-likelihood를 의미한다면 답은 항상 0이 아닙니다.

예를 들어, 포아송 데이터 : . 대한 로그 우도 는 다음과 같습니다. Y = ( y 1 , , y n ) ( μ ; Y ) = n i = 1 μ i + n i = 1 y i 로그 μ in i = 1 로그yiPoisson(μi),i=1,,nY=(y1,,yn)

()(μ;Y)=i=1nμi+i=1nyilogμii=1nlog(yi!).

미분 에서 와 관련하는 와로 설정 (이것은 우리가 포화 모델의 MLE을 구하는 방법이다) 이것을 해결 얻을 대입 에 다시 에 대한 포화 모델의 로그 우도가 있음을 준다 : 가 매우 특별 하지 않으면 가치.( ) μ i 0 1 + y i(μ;Y)()μi0μ μ I=Y μ I(*)μI( μ ,Y)=N Σ=1, Y(기록I-1)-N Σ는 i가=1 명로그인(yi!)0yi

1+yiμi=0.
μiμ^i=yiμ^i()μi
(μ^;Y)=i=1nyi(logyi1)i=1nlog(yi!)0
yi

R함수 의 도움말 페이지 glm에서 항목 아래 deviance에서이 문제에 대해 다음과 같이 설명합니다.

deviance 최대 로그 가능성의 두 배를 뺀 상수까지. 합리적인 경우 포화 모형이 이탈도 0을 갖도록 상수가 선택됩니다.

포화 모형 의 로그 우도 대신에 이탈 이 0으로 선택되어 있음을 언급했습니다 .

아마 당신이 정말로 확인하고 싶었던 것은 " 포화 모델 의 이탈 은 항상 0으로 주어진다"는 것입니다.이 이탈 이후 정의에 따라 사실입니다 ( Alan 의 범주 데이터 분석 (제 2 판) 4.5.1 섹션 참조 ). Agresti)는 지정된 GLM 대 포화 모형의 우도 비 통계량입니다. constant는 R 문서에서 상기 실제로 포화 모델 배 최대화 로그 우도이다.

"그렇지만, 이탈 공식이 제시된 방식은 때때로이 양이 0이 아니라는 것을 암시합니다."는 아마도 이탈 용어라는 용어가 잘못 사용 된 것일 수 있습니다. 예를 들어, R의 두 비교의 가능도 비율 통계는 임의 (중첩) 모델 및 또한보다 정밀하게 되나 될 일탈로 불린다 차이 의 일탈 사이 과의 일탈 우리 경우 Agresti의 책에 주어진 정의를 철저히 따랐습니다.M 2 M 1 M 2M1M2M1M2

결론

  1. 포화 모형의 로그 우도는 일반적으로 0이 아닙니다.

  2. 포화 모형의 이탈도 (원래 정의에서)는 0입니다.

  3. 소프트웨어 (예 : R) 의 이탈 출력은 실제로 다른 것을 의미하므로 (제로 이탈의 차이) 0이 아닙니다.


다음은 일반적인 지수 군 사례와 다른 구체적인 예를 도출 한 것입니다. 지수 족 온 데이터 (참조한다고 가정 S 현대 응용 통계를 , 제 ) 여기서 는 사전 가중치이며 는 분산 / 스케일 매개 변수입니다 (이항 및 포아송과 같은 많은 경우이 매개 변수는 알려진 반면 일반 및 감마와 같은 다른 경우에는이 매개 변수를 알 수 없음). 그러면 로그 우도는 다음과 같이 주어집니다 : 7

(1)f(yi;θi,φ)=exp[Ai(yiθiγ(θi))/φ+τ(yi,φ/Ai)].
Aiφ
(θ,φ;Y)=i=1nAi(yiθiγ(θi))/φ+i=1nτ(yi,φ/Ai).
포아송 예제에서와 같이 포화 모델의 매개 변수는 다음 점수 함수 를 해결하여 추정 할 수 있습니다 .
0=U(θi)=(θ,φ;Y)θi=Ai(yiγ(θi))φ

위 방정식의 해를 나타내면 포화 모형의 로그 우도의 일반적인 형태 (scale 매개 변수를 상수로 처리)는 다음과 같습니다. θ^i

()(θ^,φ;Y)=i=1nAi(yiθ^iγ(θ^i))/φ+i=1nτ(yi,φ/Ai).

이전 답변에서 의 오른쪽에있는 첫 번째 용어 가 항상 0 이라고 잘못 언급했습니다 . 위의 포아송 데이터 예제는 그것이 잘못되었음을 증명합니다. 보다 복잡한 예를 보려면 부록에 제공된 감마 분포 고려하십시오.()Γ(α,β)


포화 감마 모형의 로그 우도에서 첫 번째 항의 증거는 0이 아닙니다 . 주어진 는 지수 패밀리 형식 이 되도록 먼저 매개 변수를 다시 설정해야합니다 . 이 검증 될 수없는 경우셔서 다음 표현 갖는다 : 여기서

f(y;α,β)=βαΓ(α)eβyyα1,y>0,α>0,β>0,
f(1)
φ=1α,θ=βα,
f
f(y;θ,φ)=exp[θy(log(θ))φ+τ(y,φ)],
τ(y,φ)=logφφ+(1φ1)logylogΓ(φ1).
따라서 포화 모델의 MLE는 입니다. 따라서 입니다. 가 특별한 값을 않는 한 .θ^i=1yiyi
i=1n1φ[θ^iyi(log(θ^i))]=i=1n1φ[1log(yi)]0,
yi

1
모형이 가능한 각 결과에 100 % 확률을 할당 할 수있는 경우에만 로그 우도는 0입니까?
Alex

나는 당신이 무슨 뜻인지 이해하지 못합니다. 그러나 내 파생 에서 가 동일하게 이고 분산 매개 변수가없는 경우에만 이라고 결론 지을 수 있습니다 . τ 00τ0
Zhanxiong

당신의 파생은 매우 좋지만 공식적인 증거는 현재 내 머리 위로 조금 있습니다. 포아송 모델을 사용해 주셔서 감사합니다. 이 예제에서 취한 것은 포아송 모델이 포아송 평균에 대한 값이 주어지면 관측 된 결과에 100 % 확률을 할당 할 수 없으므로 가능성은 0이 될 수 없다는 것입니다.
Alex

"모델 은 관측 된 결과에 확률을 할당합니다"라는 말이 이상하게 들립니다. 당신은 관찰 주어진 의미합니까 하고있는 경우 포아송 확률 변수이며, ? y 1 , , y n Y P ( Y = y 1 ) + P ( Y = y 2 ) + + P ( Y = y n ) < 1100%y1,,ynYP(Y=y1)+P(Y=y2)++P(Y=yn)<1
잔 시옹

1
내가 의미했던 것은 가 포아송 랜덤 변수라면, 또는 포아송 평균에 대해 이면 관측 된 값에 대해 로그 가능성을 0으로 만드는 모델 매개 변수를 찾는 것이 불가능하다는 것입니다. . 아마도 포화 모델의 개념을 완전히 이해하지 못했을 것입니다. P ( Y = y i ) < 1 iYP(Y=yi)<1i
Alex

4

Zhanxiong의 답변은 이미 훌륭하지만 (+1), 다음 은 로지스틱 회귀 분석 에서 포화 모형의 로그 우도가 이라는 간단한 데모입니다 . 이 사이트에서이 TeX를 보지 못해서 강의를 위해 글을 썼기 때문에 게시 할 것이라고 생각했습니다.0

가능성은 여기서 .

(1)L(y;X,β)=i=1nf(yi;xi,β)=i=1nπiyi(1πi)1yi=i=1n(πi1πi)yi(1πi)
πi=invlogit(xiβ)

로그 우도는

logL(y;X,β)=i=1nyilog(πi1πi)+log(1πi)=i=1nyilogit(πi)+log(1πi)=i=1nyixiβ+log(1invlogit(xiβ))=i=1nyixiβ+log(invlogit(xiβ))=i=1nyixiβlog(1+exp[xiβ]))

모든 계수에 대해 도함수를 취하면

(2)(β)=i=1nyixiexp[xiβ](1+exp[xiβ])xi.

이 식을 과 동일하게 설정 하고 을 해결 하면 답이됩니다. 일반적으로이 방법은 분석적으로 수행 할 수 없으며,이 모델에 맞는 반복 알고리즘을 사용하는 인기 / 필요성을 설명하지만 포화 모델의 경우 가능합니다.0β

포화 모델을 찾기 위해 각 행에 고유 한 행을 제공합니다. 따라서 이고 설계 행렬 시간의 계수 벡터는 βRn

Xβ=[100010001][β1β2βn].

특히 입니다.xiβ=βi

따라서 방정식 (2) 의 번째 행을 취하면j

i=1nyixi,j=i=1nexp[xiβ](1+exp[xiβ])xi,j

각 관측치에 대해 만 적용되는 경우에만 해당됩니다 .i

yi=invlogit(βi)
또는 다시 말해 각 는 + 또는-무한대입니다 ( 가 각각 또는 경우). 이러한 매개 변수를 (1)에 다시 연결하여 최대한 가능성을 얻을 수 있습니다. 이 로그는 분명히 입니다.βiyi10
i=1nπ^iyi(1π^i)1yi=1n=1.
0


그러나 이것은 그룹화되지 않은 데이터를 가정 합니다 . (및 같은 공변량 값) 을 가진 그룹이있는 경우 (예 : 형식을 사용하여 R ) 포화 모델에는 로그 우도 0이 없습니다. ni>1glm( cbind(k, n-k) ~ x + ...
kjetil b halvorsen 2012 년

@kjetilbhalvorsen 오 좋은 지적. 나는 그것을 확인하도록 해 본 적이 없다
Taylor

1

@Alex : 그렇습니다. 적어도 이산 분포의 경우. 연속 분포의 경우 밀도를 1로 설정하는 것이 중요합니다. 이는 반드시 의미있는 것은 아니며 따라서 시도하고 달성해야 할 합리적인 것이 아닙니다. 좀 더 일반적으로 포화 모형의 로그 우도는 기본 분포 패밀리의 가정을 따르는 모형의 성능에 대한 상한을 제공합니다. 다시 말해, 포화 이항 모델의 로그 가능성은 Y가 이항이라고 가정 할 때 주어진 데이터 세트 (X, Y)에 대해 "가득한만큼"좋습니다. 모델이 본질적으로 반응 분포에 대한 가정에 의해 제한되기 때문에 100 % (또는 유사한)와 반대로 glm 모델을이 상한과 비교하는 것이 좋습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.