오프셋 은 모든 회귀 모델에서 사용할 수 있지만 반응 변수의 카운트 데이터로 작업 할 때는 훨씬 더 일반적입니다. 오프셋은 모형에서 계수 을 갖도록하는 변수 일뿐 입니다. (이 우수한 CV 스레드 : 포아송 회귀 분석에서 오프셋을 사용하는시기? 참조 ) 1
카운트 데이터를 올바르게 사용하는 경우, 이것은 당신이 모델을 드릴 것입니다 요금 대신의 수를 . 관심이 있다면해야 할 일입니다. 따라서 이는 오프셋이 가장 자주 사용되는 컨텍스트입니다. 로그 링크 (정규 링크)가있는 Poisson GLiM을 고려해 봅시다.
ln(λ)ln(λtime)ln(λ)−ln(time)ln(λ)ln(λ)=β0+β1X=β0+β1X⇒=β0+β1X=β0+β1X+1×ln(time)≠=β0+β1X+β2×ln(time)승hen β2≠1( c o unts)( r ates)( s t i l l r a tes)( c o u n t s a g a i n )
(당신이 볼 수있는 바와 같이, 올바르게 오프셋 사용하는 키를 확인하는 것입니다 오프셋,하지 .) t i m eln( t를 내가 해요 전자 )마에 내가 해요 전자
의 계수 가 이 아닌 경우 더 이상 모델링 속도가 아닙니다. 그러나 는 데이터에 적합하게 훨씬 큰 유연성을 제공하므로 을 오프셋으로 사용하지 않는 모델 은 일반적으로 더 잘 맞습니다 (비록 적합 할 수도 있음). 1 β 2 ∈ ( − ∞ , 1 ) ∪ ( 1 , ∞ ) ln ( t i m e )ln( t를 내가 해요 전자 )1β2∈ ( − ∞ , 1 ) ∪ ( 1 , ∞ )ln( t를 내가 해요 전자 )
카운트 또는 비율을 모델링해야하는지 여부는 실질적인 질문에 따라 다릅니다. 알고 싶은 것과 일치하는 것을 모델링해야합니다.
가 것이 의미 하는 한, 시간이 문제의 변수가 아닌 예를 고려하십시오. 다른 병원에서 수술 합병증의 수를 연구한다고 상상해보십시오. 한 병원은 외과 적 합병증이 더 많이보고되었지만 수술이 더 많기 때문에 비교가 불공평하다고 주장 할 수 있습니다. 그래서 당신은 이것을 통제하려고합니다. 수술 횟수 로그를 오프셋으로 사용하면 수술 당 합병증 발생률을 연구 할 수 있습니다. 다른 공변량으로 수술 횟수 로그를 사용할 수도 있습니다. 계수가 크게 다르다고 가정 해 봅시다 . 만약β211β2> 1그런 다음 더 많은 수술을하는 병원은 더 많은 합병증을 겪습니다 (아마도 더 많은 일을하기 위해 일을 서두르고 있기 때문에). 경우 의 대부분을 병원 수술 당 더 적은 합병증이 (아마도 그들은 최고의 의사가 있고, 그래서 더 많은 일을하고 더 잘 할). β2< 1
문제의 변수가 시간이라면 어떻게 이런 일이 일어날 수 있는지 보는 것이 좀 더 복잡합니다. 포아송 분포 로부터 발생 포아송 프로세스 이벤트 사이의 시간이 지수 분포, 따라서 생존 분석을 자연스럽게 연결이되는. 생존 분석에서 사건 발생 시간은 종종 지수로 분배되지 않지만 기준 위험은 시간이 지남에 따라 커지거나 작아 질 수 있습니다. 따라서 일부 자연적인 시작점 이후에 발생하는 이벤트 수를 모델링하는 경우를 고려하십시오. 인 경우 이벤트 속도가 인 경우 이벤트 속도가 느려집니다. β2> 1β2< 1
전자의 구체적인 예를 들어, 초기 종양이 외과 적으로 제거 된 후 일정 기간 동안 암 세포의 수를 세는 스캔을 상상해보십시오. 일부 환자의 경우 수술 후 더 많은 시간이 경과했으며이를 고려하고 싶었습니다. 암이 발판을 되 찾으면 기하 급수적으로 성장하기 시작하므로 추가 치료없이 수술 이후 시간이 지남에 따라 비율이 증가합니다.
후자의 구체적인 예를 들어, 치료를받지 않은 질병 발병으로 사망 한 사람의 수를 고려하십시오. 처음에는 많은 사람들이 그 질병에 더 취약하거나 이미 면역 체계가 손상 되었기 때문에 사망합니다. 시간이 지남에 따라 남은 사람들의 수가 질병에 덜 취약 해짐에 따라 비율이 감소합니다. (죄송합니다.이 예는 매우 병적입니다.)