부풀려진 포아송 회귀 모형은 의해 표본 에
대해 정의
그것은 상기 매개한다고 가정 과 충족Y i = { 0 확률 p i + ( 1 - p i ) e - λ i k 확률 ( 1 - p i ) e − λ i λ k i / k ! λ = ( λ 1 , … , λ n ) p =( y1, … , y엔)
와이나는= { 0케이확률 p 나는+ ( 1 − p나는) 전자− λ나는확률로 ( 1 - p나는)전자−λ나는λ케이나는/ k!
λ =( λ1, ... , λ엔)p =( p1, ... , p엔)
로그( λ )로짓 ( p )= B의 β= 로그( p / ( 1 − p ) ) = G γ.
0으로 팽창 된 포아송 회귀 모형의 해당 로그 우도는
L ( γ, β; y )= ∑와이나는= 0로그( 전자지나는γ+ 특급( − e비나는β) ) + ∑와이나는> 0( y나는비나는β− e비나는β)− ∑나는 =1엔로그( 1 + 전자지나는γ) − ∑와이나는> 0로그( y나는! )
여기서 및 는 디자인 행렬입니다. 이러한 행렬은 두 생성 프로세스에 사용하려는 기능에 따라 동일 할 수 있습니다. 그러나 행 수는 동일합니다.비지
가 완전, 제로 상태에서 온 경우 이고 가 포아송 상태에서 온 경우 을 볼 수 있다고 가정하면 로그 우도는 다음과 같습니다.지나는= 1와이나는지나는= 0와이나는
L ( γ, β; y , z ) = ∑나는 = 1엔로그( f( z나는| γ) ) + ∑나는 = 1엔로그( f( y나는| 지나는, β) )
= ∑나는 = 1엔지나는( G나는γ−로그( 1 + 전자지나는γ) ) + − ∑나는 = 1엔( 1 - z나는) 로그( 1 + 전자지나는γ) +∑나는 = 1엔( 1 - z나는) [ y나는비나는β− e비나는β− 로그( y나는! ) ]
첫 두 용어는 을 분리하기위한 로지스틱 회귀 분석에서의 손실입니다. 부터 . 두 번째 항은 포아송 프로세스에 의해 생성 된 점에 대한 회귀입니다.
지나는= 0지나는= 1
그러나 잠복 변수는 관찰 할 수 없습니까? 목적은 첫 로그 가능성을 최대화하는 것입니다. 그러나 잠재적 변수를 도입하고 새로운 로그 우도를 도출해야합니다. 그런 다음 EM 알고리즘을 사용하여 두 번째 로그 가능성을 최대화 할 수 있습니다. 그러나 이것은 또는 이라는 것을 알고 있다고 가정합니다 .Z i = 1지나는= 0지나는= 1