과 분산 카운트 데이터에 대한 포아송 회귀에 대한 대안 선택


12

현재 다음 측정 값을 사용하는 일련의 행동 실험 데이터를 분석하고 있습니다. 이 실험의 참가자들은 다른 사람들이 일련의 10 개의 아나그램을 풀기 위해 사용할 수있는 실마리를 선택해야합니다. 참가자들은이 다른 사람들이 아나그램 해결 능력에 따라 돈을 벌거나 잃을 것이라고 믿게되었습니다. 단서는 그들이 얼마나 도움이되는지에 따라 다릅니다. 예를 들어, RUNNING의 아나그램 인 NUNGRIN 아나그램의 경우 다음과 같은 세 가지 단서가 있습니다.

  1. 빨리 움직이기 (도움이되지 않는)
  2. 마라톤 경주에서하는 일 (유용)
  3. 항상 건강한 취미는 아닙니다 (도움이되지 않음)

측정 값을 구성하기 위해 참가자가 다른 사람에게 도움이되지 않는 단서를 선택하는 횟수 (10 개 중)를 계산합니다. 실험에서 저는 사람들이 선택한 단서의 도움에 영향을주기 위해 다양한 조작을 사용하고 있습니다.

유용성 / 비 유용성 측정은 상당히 긍정적으로 왜곡되어 있기 때문에 (대부분의 사람들이 항상 가장 유용한 10 가지 단서를 선택합니다) 측정 값이 계수 변수이기 때문에 Poisson Generalized Linear Model을 사용하여 이러한 데이터를 분석했습니다. 그러나 포아송 회귀에 대해 더 자세히 읽었을 때 포아송 회귀가 분포의 평균과 분산을 독립적으로 추정하지 않기 때문에 종종 데이터 집합의 분산을 과소 평가한다는 것을 알았습니다. 나는 quasipoisson 회귀 또는 음성 이항 회귀와 같은 Poisson 회귀에 대한 대안을 조사하기 시작했습니다. 그러나 나는 이런 종류의 모델에 익숙하지 않다는 것을 인정하므로 조언을 구하려고합니다.

이런 종류의 데이터에 사용할 모델에 대한 권장 사항이 있습니까? 알아야 할 다른 고려 사항이 있습니까 (예 : 특정 모델이 다른 모델보다 더 강력합니까?)? 선택한 모델이 내 데이터를 적절하게 처리하고 있는지 확인하기 위해 어떤 종류의 진단을 살펴 봐야합니까?


분산이 평균과 같다는 가정을 완화하기위한 강력한 분산 / 공분산 추정기는 어떻습니까?
boscovich

2
그것들은 카운트 데이터이고 음이 아니기 때문에, quassi-poisson 또는 음의 이항 회귀 모델은 어떻습니까?
Arun

1
나는 준-포아송 또는 음의 이항 모델을 사용하는 것에 대해 생각했지만, 내가 이해하지 못하는 것은 내 데이터를 적절하게 모델링하고 있음을 확신하기 위해 어떤 종류의 대각선을보아야하는지입니다. 몇 가지 대안 (quasi-poisson, negative binomial 및 "zero-augmented"모델)이 있기 때문에 이러한 대안 중에서 선택할 수있는 좋은 방법이 있는지 궁금합니다. 예를 들어, 한 방법이 다른 방법보다 일반적으로 더 강력합니까?
Patrick S. Forscher

1
데이터에 따라 다릅니다. 모든 데이터를 데이터 (Poisson, Negative binomial, zero-inflated Poisson 및 negative binomial, 문제가되는 사람들의 장애물 모델)에 맞추고 AIC 또는 BIC를 통해 비교해보십시오. cran.r-project.org/web/packages/pscl/vignettes/countreg.pdf를 참조하십시오 . 그런 다음 데이터에 가장 적합한 것을 선택하십시오. 당신은 또한 유사 가능성 모델을 사용할 수 있지만, 그것은 맛의 문제입니다.
Momo

1
어떤 분포가 응답에 적합한 모형인지 확인하려면 vcd :: distplot 함수를 사용할 수 있습니다.
Momo

답변:


12

결과는 10에서 유용한 단서의 수이며 이항 랜덤 변수입니다. 따라서과 분산을 허용하기 위해 일종의 이항 회귀, 아마도 준 이항으로 분석해야합니다. 포아송과 잘못 명명 된 음수 이항 분포는 무제한 카운트 데이터에 적합합니다.


2
나는 포이 슨이 처음 제안한 포아송에 대한 과대 산포 대안이기 때문에 음 이항을 언급했다. 각 응답자에 x / 10 단서가 있으므로 이항 일 수 있지만 10 개의 단서마다 i 번째 응답자에 대해 고정 된 확률 pi가 있고 발생은 독립적입니다. 그럴 수도 있습니다.
Michael R. Chernick

2
베타 이항은 또 다른 가능성입니다 (베타 이항은 이항에 대한 것이고, 음의 이항은 푸 아송에 대한 것입니다). 패키지 betabin에서 aod할 것입니다.
벤 볼커

5

가능한 결과가 푸 아송처럼 무한한 경우 음의 이항을 보는 것이 좋습니다. Joe Hilbe의 책 중 하나를 참조 할 수 있습니다. 그는 GEE에 하나, 부정적인 이항 회귀에 하나는 포아송 회귀와 대조를 이룹니다. 그러나 Aniko가 지적했듯이 단 10 개의 단서 만 있으므로 각 응답자는 0, 1, 2, 3, ..., 10 만 가질 수 있으므로 Poisson이나 음의 지수는 적절하지 않습니다.


4

@Aniko의 좋은 지적. 다른 선택은 베타 회귀입니다. 이 방법에 대한 많은 정보를 제공하는 "더 나은 레몬 압착기" 라는 제목의 논문이있었습니다 .


2
그러나 베타는 유한 한 정수 세트에서 카운트 변수가 아닌 비율을 모델링하는 데 사용됩니다.
Michael R. Chernick 0:43에

@MichaelChernick는 더 광범위하게 사용되며 기사를 참조하십시오.
Peter Flom-Monica Monica 복원

@PeterFlom 또한 [0,1] 간격의 데이터는 처리 할 수 ​​없으며 (0,1) 만 가능합니다.
colin
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.