GLM 프레임 워크 내에서 카운트 데이터와 함께 어떤 회귀 유형 (형상, 포아송, 음 이항)을 사용하는 것이 적절할 때 나 자신을 위해 레이아웃하려고합니다 (8 개의 GLM 분포 중 3 개만 카운트 데이터에 사용됩니다. 음의 이항 분포와 포아송 분포 중심을 읽었습니다).
카운트 데이터에 포아송 대 기하 대 음 이항 GLM을 언제 사용해야합니까?
지금까지 나는 다음과 같은 논리를 가지고 있습니다 : 그것은 데이터를 계산합니까? 그렇다면 평균과 분산이 다른가? 예인 경우 음 이항 회귀입니다. 아니라면, 포아송 회귀. 인플레이션이 없는가? 그렇다면, 포아송이 0으로 팽창하거나 음의 이항이 0으로 팽창되었습니다.
질문 1 언제 사용할 것인지에 대한 명확한 표시가없는 것 같습니다. 그 결정에 도움이 될만한 것이 있습니까? 내가 이해 한 바에 따르면 일단 ZIP으로 전환하면 평균 편차가 동일하다는 평균이 완화되어 다시 NB와 매우 유사합니다.
질문 2 회귀 분석에서 기하 계열을 사용할지 여부를 결정할 때 기하 계열이 어디에 적용되거나 어떤 종류의 질문을해야합니까?
질문 3 사람들이 항상 음의 이항 분포와 포아송 분포를 바꾸지 만 기하 형이 아니라는 것을 알기 때문에 사용시기에 대해 분명히 다른 점이 있다고 생각합니다. 그렇다면 무엇입니까?
추신 : 사람들이 토론을 위해 의견을 말하거나 비틀기를 원한다면 현재 이해에 대한 (아마도 지나치게 단순화 된) 다이어그램 ( 편집 가능 )을 만들었습니다 .