포아송 모델에서 공변량 또는 오프셋으로 시간을 사용하는 것의 차이점은 무엇입니까?


18

최근에 Poisson 회귀 분석에서 시간 로그 (예 : 시간 로그)를 오프셋으로 사용하여 노출을 모델링하는 방법을 발견했습니다.

오프셋은 계수 1과 공변량으로 시간을 갖는 것과 일치한다는 것을 이해했습니다.

시간을 오프셋으로 사용하거나 정규 공변량으로 사용하여 차이를 계산하는 것의 차이를 더 잘 이해하고 싶습니다 (따라서 계수 추정). 어떤 상황에서 한 가지 방법을 사용해야합니까?

업그레이드 : 흥미로운 지 모르겠지만 500 번 반복 된 무작위 분할 데이터를 사용하여 두 가지 방법의 유효성 검사를 실행했으며 오프셋 방법을 사용하면 테스트 오류가 더 커짐을 알았습니다.

답변:


25

오프셋 은 모든 회귀 모델에서 사용할 수 있지만 반응 변수의 카운트 데이터로 작업 할 때는 훨씬 더 일반적입니다. 오프셋은 모형에서 계수 을 갖도록하는 변수 일뿐 입니다. (이 우수한 CV 스레드 : 포아송 회귀 분석에서 오프셋을 사용하는시기? 참조 ) 1

카운트 데이터를 올바르게 사용하는 경우, 이것은 당신이 모델을 드릴 것입니다 요금 대신의 수를 . 관심이 있다면해야 할 일입니다. 따라서 이는 오프셋이 가장 자주 사용되는 컨텍스트입니다. 로그 링크 (정규 링크)가있는 Poisson GLiM을 고려해 봅시다.

ln(λ)=β0+β1엑스(영형에스)ln(λ나는미디엄이자형)=β0+β1엑스(아르 자형이자형에스)ln(λ)ln(나는미디엄이자형)=β0+β1엑스ln(λ)=β0+β1엑스+1×ln(나는미디엄이자형)(에스나는 아르 자형이자형에스)ln(λ)=β0+β1엑스+β2×ln(나는미디엄이자형)h이자형 β21(영형에스 나는)

(당신이 볼 수있는 바와 같이, 올바르게 오프셋 사용하는 키를 확인하는 것입니다 오프셋,하지 .) t i m eln(나는미디엄이자형)나는미디엄이자형

의 계수 가 이 아닌 경우 더 이상 모델링 속도가 아닙니다. 그러나 는 데이터에 적합하게 훨씬 큰 유연성을 제공하므로 을 오프셋으로 사용하지 않는 모델 은 일반적으로 더 잘 맞습니다 (비록 적합 할 수도 있음). 1 β 2( , 1 ) ( 1 , ) ln ( t i m e )ln(나는미디엄이자형)1β2(,1)(1,)ln(나는미디엄이자형)


카운트 또는 비율을 모델링해야하는지 여부는 실질적인 질문에 따라 다릅니다. 알고 싶은 것과 일치하는 것을 모델링해야합니다.

가 것이 의미 하는 한, 시간이 문제의 변수가 아닌 예를 고려하십시오. 다른 병원에서 수술 합병증의 수를 연구한다고 상상해보십시오. 한 병원은 외과 적 합병증이 더 많이보고되었지만 수술이 더 많기 때문에 비교가 불공평하다고 주장 할 수 있습니다. 그래서 당신은 이것을 통제하려고합니다. 수술 횟수 로그를 오프셋으로 사용하면 수술 당 합병증 발생률을 연구 할 수 있습니다. 다른 공변량으로 수술 횟수 로그를 사용할 수도 있습니다. 계수가 크게 다르다고 가정 해 봅시다 . 만약β211β2>1그런 다음 더 많은 수술을하는 병원은 더 많은 합병증을 겪습니다 (아마도 더 많은 일을하기 위해 일을 서두르고 있기 때문에). 경우 의 대부분을 병원 수술 당 더 적은 합병증이 (아마도 그들은 최고의 의사가 있고, 그래서 더 많은 일을하고 더 잘 할). β2<1

문제의 변수가 시간이라면 어떻게 이런 일이 일어날 수 있는지 보는 것이 좀 더 복잡합니다. 포아송 분포 로부터 발생 포아송 프로세스 이벤트 사이의 시간이 지수 분포, 따라서 생존 분석을 자연스럽게 연결이되는. 생존 분석에서 사건 발생 시간은 종종 지수로 분배되지 않지만 기준 위험은 시간이 지남에 따라 커지거나 작아 질 수 있습니다. 따라서 일부 자연적인 시작점 이후에 발생하는 이벤트 수를 모델링하는 경우를 고려하십시오. 인 경우 이벤트 속도가 인 경우 이벤트 속도가 느려집니다. β2>1β2<1

전자의 구체적인 예를 들어, 초기 종양이 외과 적으로 제거 된 후 일정 기간 동안 암 세포의 수를 세는 스캔을 상상해보십시오. 일부 환자의 경우 수술 후 더 많은 시간이 경과했으며이를 고려하고 싶었습니다. 암이 발판을 되 찾으면 기하 급수적으로 성장하기 시작하므로 추가 치료없이 수술 이후 시간이 지남에 따라 비율이 증가합니다.

후자의 구체적인 예를 들어, 치료를받지 않은 질병 발병으로 사망 한 사람의 수를 고려하십시오. 처음에는 많은 사람들이 그 질병에 더 취약하거나 이미 면역 체계가 손상 되었기 때문에 사망합니다. 시간이 지남에 따라 남은 사람들의 수가 질병에 덜 취약 해짐에 따라 비율이 감소합니다. (죄송합니다.이 예는 매우 병적입니다.)


포괄적 인 답변에 대해 대단히 감사합니다. 내가 잘 이해하면 알려주십시오. 오프셋 우리가 시간을 사용하는 경우, 우리는 시간과 그 각 계수 다른 예측 주어진다 거듭 제곱 이벤트 간의 선형 포지티브 관계 가정 . 대신 공변량으로 로그 시간을 사용하는 경우 이벤트에 대한 시간의 지수 효과를 추정합니다. 이는 양의 음수 일 수 있습니다. y = t i m e β t와이=나는미디엄이자형특급(1β엑스+영형에스). (계속 ...)와이=나는미디엄이자형β나는미디엄이자형특급(1β엑스+영형에스)
Bakaburg

1
그러므로 왜 시간과 사건 사이의 관계가 선형적이고 성장한다고 가정해야합니까? 모든 경우에 그러한 관계의 형태를 추정하는 것이 낫지 않습니까? 두 가지 질문이 더 있습니다. 1. 로그 변환되지 않은 시간을 공변량으로 대신 사용한다는 것은 무엇을 의미합니까? 2. (아마도 질문을 편집하거나 이것에 대한 새로운 질문을해야 할 수도 있습니다) 포아송 모델은 실제로 정수 y가 아닌 사용할 수 있다는 것을 읽었습니다. 따라서 R로 쓸 수 있습니다 : glm (I (y / time) ~ cov.1 + ... + cov.n, poisson) 및 offset (log (time))을 사용하는 것과 동일한 결과를 얻습니다. 나는 이것을 시도했지만 다른 계수를 얻습니다.
바카 부르크

푸 아송 거리는 정수 전용입니다. LHS에 분수를 입력해서는 안됩니다. 로그 변환을 사용하지 않으면 단위 시간당 기하 급수적으로 이벤트 비율을 모델링 할 수 있으며 이는 실제 상황에서는 결코 의미가 없습니다.
gung-모니 티 복원

1
@Bakaburg, 시간은 아마 그들과 관련이 있습니다. 그것은 다른 회귀 모델링 상황과 다르지 않습니다. 여기서 문제가 보이지 않습니다. 평균 요금 모델링에 관심이 있거나 그렇지 않습니다.
gung-모니 티 복원

1
@tatami, 오프셋을 사용하지 않고 공변량으로 시간을 사용하려는 경우 시간 로그를 사용할 필요가 없습니다. 그러나 결과를 오프셋과 비교하려면 로그를 사용하여 결과를 비교해야합니다.
gung-복직 모니카

7

시간 오프셋은 일반적으로 모델이 단위 시간당 이벤트 발생률을 추정하는 모델로 볼 수 있으며 오프셋은 다양한 피사체를 관찰 한 시간을 제어합니다.

포아송 모델에서는 항상 발생하는 속도를 추정하지만 이 속도를 직접 관찰 할 수는 없습니다 . 당신은 이벤트가 일정 시간에 걸쳐 발생하는 횟수를 관찰 할 수. 오프셋은 두 개념을 연결합니다.

예를 들어, 다양한 시간 동안 바스켓을 촬영 한 피사체를 관찰하고 각 피사체에 대해 성공적인 바스켓 수를 계산했습니다. 각 대상이 바구니 를 얼마나 자주 싱크 하는지에 관심이있는 것 , 즉 각 대상이 1 분마다 싱크 할 것으로 예상되는 성공적인 바구니의 수는 기술의 다소 객관적인 측정치입니다. 실제로 침몰 한 것을 관찰 한 바구니의 수는 피험자가 시도한 시간을 관찰 한 시간의 추정 비율입니다. 따라서 반응 단위 , 분당 바스켓 수로 생각할 수 있습니다 .

포아송 회귀 분석에서 공변량으로 관측 된 시간을 사용하는 상황을 생각하기는 어렵습니다. 왜냐하면 본질적으로 당신은 속도를 추정하기 때문입니다.

예를 들어, 바스켓 수에 대해 미국 대 유럽 (매우 어리석은 예)의 영향을 평가하려면 공변량으로 시간을 추가하면 통과 시간과 "독립적으로"해당 효과를 평가할 수 있습니다. 그것? 또한 결과에 대한 시간의 영향을 추정 할 수 있습니다.

희망적으로 이것의 위험을 강조하는 예가 있습니다. 실제로 미국인과 유럽인은 1 분마다 같은 수의 바구니를 싱크한다고 가정합니다. 그러나 우리는 각각의 미국인보다 두 배나 긴 각 유럽인을 관찰했다고해서 평균적으로 각 유럽인에 대해 두 배나 많은 바구니를 관찰했습니다.

우리가 매개 변수를 포함한 모델을 설정 한 경우 모두 다음 관찰 시간과, "유럽이다"에 대한 지표를이 모델의 모두는 데이터를 설명 :

이자형(바구니)=2+0엑스에로 ope
이자형(바구니)=0+2엑스에로 ope

통계 학자로서 우리는이 상황에서 유럽인이 바구니를 만드는 비율과 미국인이 바구니를 만드는 비율 사이에 통계적 차이가 없음을 알려주는 모델을 실제로 원합니다. 그러나 우리의 모델은 그렇게하지 않았고 우리는 혼란에 빠졌습니다.

문제는이다 우리가 우리의 모델 않는다는 것을 알고 하지 알고 있습니다. 즉, 우리 는 같은 개인을 두 배나 더 오랫동안 관찰하면 기대에 따라 두 배나 많은 바구니를 만들 것이라는 것을 알고 있습니다. 우리는 이것을 알고 있으므로 모델에 대해 알려야합니다. 이것이 오프셋이 달성하는 것입니다.

이벤트가 시간에 따라 균일하게 발생한다는 것을 알 때 오프셋 방법을 사용하는 것이 적절할 수 있습니다!

예, 그러나 이것은 포아송 모델 자체 의 가정입니다 . 포아송 분포의 Wikipedia 페이지에서

프랑스의 수학자 Siméon Denis Poisson의 이름을 딴 Poisson 분포는 일정 시간 간격 및 / 또는 공간에서 일정 수의 사건 이 알려진 평균 속도로 발생하고 마지막 이벤트 이후의 시간 .


2
답변 주셔서 감사합니다. 그러나 공변량으로 시간을 사용하면 같은 대답을 얻지 못합니까? 예를 들어, 바스켓 수에 대해 미국 대 유럽 (매우 어리석은 예)의 영향을 평가하려면 공변량으로 시간을 추가하면 통과 시간과 "독립적으로"해당 효과를 평가할 수 있습니다. 그것? 또한 결과에 대한 시간의 영향을 추정 할 수 있습니다. 경우에 따라 시간이 카운트 변수에 항상 중요한 것은 아닙니다 (예 : 이벤트가 관측 기간의 시작 부분에서 모두 발생하는 경우).
Bakaburg

이벤트가 시간에 따라 균일하게 발생한다는 것을 알 때 오프셋 방법을 사용하는 것이 적절할 수 있습니다!
Bakaburg

1
@Bakaburg 나는 시도한 응답을 추가했습니다. 도움이 되길 바랍니다!
Matthew Drury
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.