카운트 데이터에 포아송 대 기하 대 음 이항 GLM을 언제 사용해야합니까?


21

GLM 프레임 워크 내에서 카운트 데이터와 함께 어떤 회귀 유형 (형상, 포아송, 음 이항)을 사용하는 것이 적절할 때 나 자신을 위해 레이아웃하려고합니다 (8 개의 GLM 분포 중 3 개만 카운트 데이터에 사용됩니다. 음의 이항 분포와 포아송 분포 중심을 읽었습니다).

카운트 데이터에 포아송 대 기하 대 음 이항 GLM을 언제 사용해야합니까?


지금까지 나는 다음과 같은 논리를 가지고 있습니다 : 그것은 데이터를 계산합니까? 그렇다면 평균과 분산이 다른가? 예인 경우 음 이항 회귀입니다. 아니라면, 포아송 회귀. 인플레이션이 없는가? 그렇다면, 포아송이 0으로 팽창하거나 음의 이항이 0으로 팽창되었습니다.

질문 1 언제 사용할 것인지에 대한 명확한 표시가없는 것 같습니다. 그 결정에 도움이 될만한 것이 있습니까? 내가 이해 한 바에 따르면 일단 ZIP으로 전환하면 평균 편차가 동일하다는 평균이 완화되어 다시 NB와 매우 유사합니다.

질문 2 회귀 분석에서 기하 계열을 사용할지 여부를 결정할 때 기하 계열이 어디에 적용되거나 어떤 종류의 질문을해야합니까?

질문 3 사람들이 항상 음의 이항 분포와 포아송 분포를 바꾸지 만 기하 형이 아니라는 것을 알기 때문에 사용시기에 대해 분명히 다른 점이 있다고 생각합니다. 그렇다면 무엇입니까?

추신 : 사람들이 토론을 위해 의견을 말하거나 비틀기를 원한다면 현재 이해에 대한 (아마도 지나치게 단순화 된) 다이어그램 ( 편집 가능 )을 만들었습니다 . 카운트 데이터 : GLM 의사 결정 트리


R 프로그래밍에만 익숙하지만이 도움이 되길 바랍니다. stats.stackexchange.com/questions/60643/…
RYO ENG Lian Hu

@RYOENG, 나는 그것을 보았고 논리 트리를 사용하여 내 질문에 설명 된 차이점을 설명했습니다. 특히 덜 논의 된 거리, 즉 기하학적 거리에 관심이 있습니다.
timothy.s.lau

(업데이트) @Nick Cox의 답변은 여기에 있습니다 : stats.stackexchange.com/questions/67547/when-to-use-gamma-glms 는 내가 본 지금까지 본 정서에 정통한 것처럼 보입니다 . 가장 잘 작동 할 때마다 빈 답을 넘어서 사용하는 것 "
timothy.s.lau

@Glen_b 잘 잡았습니다. 논리를 업데이트했습니다.
timothy.s.lau 2018 년

개조에 의한 찌그러짐에 관한 단락을 제거하는 것이 안전 할 것입니다.
Glen_b-복지 주 모니카

답변:


12

μ+1/θμ2μθα=1/θθ=θ=1

θ

물론, 때로는 훨씬 더 나은 적합도를 이끌어 낼 수있는 다른 단일 또는 다중 매개 변수 수 데이터 분포 (여기서 언급 한 화합물 Poisson 포함)도 있습니다.

초과 제로의 경우 : 두 가지 표준 전략은 제로 팽창 카운트 데이터 분포 또는 제로 이상의 이진 모델과 제로 절단 카운트 데이터 모델로 구성된 허들 모델을 사용하는 것입니다. 언급했듯이 초과 제로와 과분 산은 혼란 스러울 수 있지만 초과 제로에 대한 모델을 조정 한 후에도 상당한 과분 산이 남아 있습니다. 다시 한 번 의심스러운 경우 위와 동일한 논리로 NB 기반 제로 인플레이션 또는 허들 모델을 사용하는 것이 좋습니다.

면책 조항 : 이것은 매우 간단하고 간단한 개요입니다. 실제로 모델을 적용 할 때는 주제에 대한 교과서를 참조하는 것이 좋습니다. 개인적으로 저는 Winkelmann의 카운트 데이터 북과 Cameron & Trivedi의 카운트 데이터 북이 마음에 듭니다. 그러나 다른 좋은 것도 있습니다. R 기반 토론의 경우 JSS ( http://www.jstatsoft.org/v27/i08/ ) 의 논문을 좋아할 수도 있습니다 .


4
μ+μ2>μ

3
μ

3
이전 의견에서 알 수 있듯이, 나는 지나치게 단순화 된 순서도의 팬이 아닙니다. 좋은 모델을 선택하려면 모델 간의 연결과 실제 애플리케이션과의 관계를 이해해야합니다. 지오메트리에 관심이 있는지 여부는 사용 사례에 따라 다릅니다. 마찬가지로, 무 인플레이션 대 장애물 (차트에서 생략). 마지막으로, 질문의 순서가 모든 응용 프로그램 등에서 반드시 동일하지는 않습니다.
Achim Zeileis 2016 년

2
스케치가 약간 단순화 된 것 같습니다. 그러나 과학을 공부하는 학생들에게는 단순한 스키마로 시작하는 것이 드문 일이 아닙니다. 물리 수업을 수강했다면 이전에 배운 "규칙"을 얼마나 자주 바꾸고 깨는 지에 익숙합니다. 전문적이고 미묘한 이해력. 그래서 배우기 위해, 저는 대학원생입니다. 나는 나중에 예를 들어 허들 등으로 만들 수있는 기초에 대해 더 "올바른"이해를 얻으려고 노력했습니다. 참고 문헌 BTW에 감사드립니다, 교과서를 조사하겠습니다 당신은 당신의 논문뿐만 아니라 언급했습니다.
timothy.s.lau

1
로그(μ나는)=엑스나는β
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.