카운트 데이터에 적합한 모델을 결정하기위한 전략


16

카운트 데이터와 함께 사용할 모델을 결정하기위한 적절한 전략은 무엇입니까? 나는 다중 레벨 모델로 모델링 해야하는 데이터를 계산 했으며이 사이트에서 버그 또는 MCMCglmm을 통해 가장 좋은 방법이라고 제안했습니다. 그러나 나는 여전히 베이지안 통계에 대해 배우려고 노력하고 있으며, 먼저 데이터를 일반 선형 모델로 맞추고 데이터의 중첩 구조를 무시해야한다고 생각했습니다 (그러므로 기대할 내용에 대한 모호한 아이디어를 얻을 수 있습니다).

데이터의 약 70 %는 0이고 평균에 대한 분산의 비율은 33입니다. 따라서 데이터가 과도하게 분산되어 있습니다.

(포아송, 음 이항, 준 및 0 팽창 모델을 포함하여) 여러 가지 다른 옵션을 시도한 후 결과의 일관성이 거의 없습니다 (모든 것이 중요하지 않은 것이 중요하지 않음).

인플레이션과 과대 산포에 근거하여 어떤 모델을 선택해야하는지에 대한 정보에 입각 한 결정을 내릴 수 있습니까? 예를 들어, 준-포아송이 음의 이항 법보다 더 적절하다는 것을 어떻게 유추 할 수 있습니까? 마찬가지로, 0 팽창 모델을 사용하는 경우 더 이상 과분 산이 없는지 어떻게 평가합니까? 또는 제로 팽창 된 포아송과 제로 팽창 된 음의 이항을 어떻게 결정해야합니까?

답변:


9

예측값 (바람직하게는 홀드 아웃 세트)을보고 카운트 모델을 항상 비교할 수 있습니다. J. Scott Long은이를 그래픽으로 설명합니다 (예측 된 값을 실제 값과 비교). 그의 교과서는 여기 에서 자세히 설명하지만 이 문서 에서 6.4를 볼 수도 있습니다 .

AIC 또는 BIC를 사용하여 모델을 비교할 수 있으며 Voung 테스트라고 불리는 테스트가 있습니다. 다음은 시작하기위한 10 페이지의 간략한 Sas 논문 입니다. R 게시에도 포함되어 있습니다


충고 감사합니다. 나는 모델을 결정하기 전에 예측을 확실히 검토하려고 노력할 것입니다
George Michaelides

5

B_Miner가 말한 것에 추가 할 몇 가지 사항 :

1) 모델이 "모든 중요"에서 "무의미"까지 다양했지만 모델을 비교하는 좋은 방법은 아닙니다. 대신, 예측 된 값 (B_miner가 제안한대로)과 효과 크기를보십시오.

2) 데이터의 70 %가 0이면 인플레이션이 0이 아닌 모델이 적합하다고 상상할 수 없습니다.

3) Bayesian으로 가고 싶지 않더라도 SAS (PROC GLIMMIX 또는 NLMIXED) 및 R (다양한 패키지)에서 GLMM을 사용할 수 있습니다. 중첩 된 특성을 무시하면 모든 것이 엉망이 될 수 있습니다.

4) 일반적으로 어떤 모델이 가장 적합한 지 결정하는 것은 과학이 아니라 예술입니다. 사용할 통계가 있지만 판단에 대한 지침입니다. 당신이 쓴 것을 보면서 ZINB 모델이 올바르게 보인다고 말할 것입니다.


의도는 결국 베이지안을 사용하여 이것을 모델링하려고 시도하지만 모델을 피팅하기 전에 어떻게 결정을 내릴 수 있는지 이해하려고했습니다. 데이터의 중첩 된 특성을 무시하면 문제가 발생할 가능성이 있으면 GLMM을 먼저 시도합니다. 내가 알고있는 R의 유일한 패키지는 다중 레벨 ZINB를 수행 할 수 있다는 것입니다. glmmADMB. 다른 패키지를 추천 하시겠습니까?
George Michaelides

4

내 이해는 특정 항목에 대해 다른 카운트와 비교하여 0의 카운트를 생성하는 이론적 근거가있을 때 0 팽창 분포를 사용해야한다는 것입니다. 다시 말해, 제로가 다른 계수를 생성하는 것과 다른 프로세스에 의해 생성되는 경우에는 제로 팽창 분포를 사용해야합니다. 표본에 과대 산포가 주어 졌을 때, 이에 대한 이론적 근거가 없다면, 음의 이항 분포를 사용하는 것이 제로의 풍부함을 정확하게 나타내고이 매개 변수를 자유롭게 추정하여 관찰되지 않은 이질성을 나타냅니다. 위에서 언급했듯이 Scott Long의 책은 훌륭한 참고 자료입니다.


답변 주셔서 감사합니다. 실제로, 다른 항목이 다른 수와 비교하여 0을 생성 할 수 있는지에 대해 생각하기 시작했으며 실제로는 0과 다른 수를 설명하는 변수가 몇 개 있다고 생각합니다. 따라서 적어도 ZINB를 먼저 사용 하여이 변수가 작동하는 방식으로 작동하는지 확인해야합니다.
George Michaelides

3

Matt의 말에 전적으로 동의했습니다. 먼저 데이터의 배경에 대해 생각해야합니다 ... 인구에 제로 생성 트리거가없는 경우 ZI 모델에 적합하지 않습니다! NB 모델의 장점은 감마 분포 랜덤 변수에서 관찰되지 않은 이질성을 표시 할 수 있다는 것입니다. 기술적으로 : 과대 산포의 주된 이유는 불확실한 이원성과 제로 인플레이션입니다. 나는 당신의 착용감이 나쁘다고 생각하지 않습니다. 적합도를 얻으려면 항상 편차를 모형의 자유 도와 비교해야합니다. 이탈도 D가 n- (p + 1)보다 높으면 (이 값은 df) 더 나은 모형을 검색해야합니다. 과 분산을 제거하기 위해 ZINB보다 더 나은 모델은 거의 없지만.

ZINB를 R에 맞추려면 패키지를 가져 와서 pscl명령을 사용하십시오 zeroinfl(<model>, dist=negative). 자세한 내용은 ?zeroinfl필요한 패키지를로드 한 후 참조하십시오 !

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.