분산되지 않은 카운트 데이터에 적합한 모델은 무엇입니까?


24

분명히 분산되지 않은 R의 카운트 데이터 를 모델링하려고합니다 (분산 매개 변수 ~ .40). 이것은 glmwith family = poisson또는 negative 이항 ( glm.nb) 모형이 유의하지 않은 이유 일 수 있습니다. 내 데이터의 설명을 볼 때 일반적인 카운트 데이터 왜곡이 없으며 두 실험 조건의 잔차도 균질합니다.

그래서 내 질문은 :

  1. 카운트 데이터가 실제로 카운트 데이터처럼 동작하지 않으면 카운트 데이터에 대해 특수 회귀 분석을 사용해야합니까? 비정규성에 직면하는 경우도 있지만 (보통 첨도) 비정규 성을 설명하기 위해 정리 된 평균 (Wilcox, 2012)을 비교하기 위해 백분위 수 부트 스트랩 방법을 사용했습니다. 카운트 데이터에 대한 방법을 Wilcox가 제안하고 WRS 패키지에서 구현 한 강력한 방법으로 대체 할 수 있습니까?

  2. 카운트 데이터에 회귀 분석을 사용해야하는 경우 미달 산포를 어떻게 설명합니까? 포아송과 음의 이항 분포는 더 높은 분산을 가정하므로 적절하지 않아야합니까? 나는 Quais-Poisson 분포를 적용하는 것에 대해 생각하고 있었지만 일반적으로 과다 분산에 권장됩니다. 내가 읽어 베타 이항 에서 availabe이다 잘 underdispersion만큼 오버에 대한 계정 수있을 것 모델 VGAM저자는 그러나 추천하는 것 R.의 패키지 tilded 포아송 분포를 ,하지만 난 패키지에서 찾을 수 없습니다 .

분산 된 데이터에 대한 절차를 추천하고 그에 대한 예제 R 코드를 제공 할 수 있습니까?


1
데이터가 제대로 분산되어 있지 않다는 것을 어떻게 알 수 있습니까? 분산 파라미터를 어떻게 계산합니까?
Hong Ooi

1
또한 선형 예측 변수 점 추정치 및 값 예측의 경우, 분산 부족이 거의 문제가되지 않지만 테스트와 간격이 불필요하게 보수적 일 수 있습니다 (준 가족이 도움이 됨). 즉, "정상적인"우도 접근 방법은 COM Poisson 및 기타 일반 Poisson 모델을 확인하십시오.
Momo

@ Hung Ooi : 분산 테스트 (Poissonmodel, alternative = c ( "less"))를 사용하여 분산을 테스트 한 결과이 테스트는 의미있는 것으로 나타났습니다.
Sil

1
@ Momo : 두 가지 실험 조건에서 협상 dyads가 제공하는 올바른 오퍼가 다른지 테스트하고 싶습니다. 올바른 제안은 dyad가 상대방에게 더 중요한 문제를 주장하는 대신 팀의 각 관심사에 해당하는 더 많은 문제를 주장한다는 의미입니다. 첫째, 나는 이것이 카운트 데이터라는 것을 알지 못했습니다. COM Poisson의 Conway-Maxwell-Poisson Distribution을 의미합니까? 이미 많은 감사합니다!
Sil

3
추가 정보에 감사드립니다. 예, 나는 conway-maxwell poisson을 의미했습니다. Shmueli & co는 그것을 위해 일종의 일반 선형 모델을 개발했으며, 시도하고 싶다면 R 패키지도 있습니다.
Momo

답변:


9

분산 된 Poisson 데이터를 처리하는 최선의 표준 방법은 일반화 된 Poisson 또는 장애물 모델을 사용하는 것입니다. 저 분산 데이터에는 세 가지 매개 변수 수 모델을 사용할 수도 있습니다. 예 : Faddy-Smith, Waring, Famoye, Conway-Maxwell 및 기타 일반화 된 카운트 모델. 이것들의 유일한 단점은 해석 가능성입니다. 그러나 일반적으로 분산되지 않은 데이터의 경우 일반 포아송을 사용해야합니다. 과도하게 분산 된 데이터의 음 이항과 같습니다. 나는 케임브리지 대학교 출판부 (Cambridge University Press)의 저서 2 권, Modeling Count Data (2014)와 Negative Binomial Regression, 2nd edition (2011)에서 이것을 자세히 설명합니다. R에서 VGAM 패키지는 일반 Poisson (GP) 회귀를 허용합니다. 분산 파라미터의 음수 값은 부족 분산 조정을 나타냅니다. 과도하게 분산 된 데이터에도 GP 모델을 사용할 수 있습니다. 그러나 일반적으로 NB 모델이 더 좋습니다. 그것으로 내려갈 때, 과소 산포의 원인을 결정하고 그것을 처리하기에 가장 적합한 모델을 선택하는 것이 가장 좋습니다.


다시 오신 것을 환영합니다! 계정을 등록 및 / 또는 병합하십시오 ( 도움말 센터내 계정 섹션 에서이 작업을 수행하는 방법에 대한 정보를 찾을 수 있음 ). 그러면 자신의 질문에 대한 편집 및 의견을 작성할 수 있습니다. (귀하의 원래 계정은 여기에 있습니다 .)
gung-Reinstate Monica

SPSS에서 일반화 된 포아송 분석을 수행 할 수 있습니까?
그레이스 캐롤

3

나는 사람들이 소셜 게임을하는 빈도와 관련이있는 분산 된 Poisson을 한 번 만났습니다. 이것은 사람들이 금요일에 노는 규칙적인 규칙 때문이었습니다. 금요일 데이터를 제거하면 Poisson이 과대 산포 될 것으로 예상됩니다. 데이터를 유사하게 편집 할 수있는 옵션이있을 수 있습니다.


1

과소 산포가 선호도가없는 어린이들에게 공통적으로 나타나는 인플레이션 제로와 합쳐지는 상황이 있습니다. 나는 이것을 현재까지 포착하는 방법을 찾지 못했다

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.