개체 내 실험을 사용하여 실험 연구의 카운트 데이터를 모델링 할 때 여러 가지 실용적인 질문에 부딪 쳤습니다. 실험, 데이터 및 지금까지 수행 한 작업에 대해 간단히 설명하고 질문을합니다.
응답자의 샘플에 4 개의 다른 영화가 순서대로 표시되었습니다. 각 영화가 끝난 후 인터뷰를 진행하여 RQ에 관심이있는 특정 진술 (예측 카운트 변수)의 발생 횟수를 세었습니다. 또한 가능한 최대 발생 횟수 (코딩 단위; 오프셋 변수)도 기록했습니다. 또한 영화의 여러 특징은 연속적인 척도로 측정되었으며, 그 중 하나는 진술의 수에 대한 영화 특징의 영향에 대한 인과 가설이 있고 다른 것은 통제 (예측 자)입니다.
지금까지 채택 된 모델링 전략은 다음과 같습니다.
원인 변수가 공변량으로 사용되고 다른 변수가 제어 공변량으로 사용되는 랜덤 효과 푸 아송 모형을 추정합니다. 이 모델의 오프셋은 'log (units)'(코딩 단위)와 같습니다. 임의의 효과가 피사체에 적용됩니다 (영화 별 카운트는 피사체에 중첩됩니다). 우리는 인과 가설이 확인되었다 (인과 변수의 계수). 추정에서 R의 lme4 패키지, 특히 함수 glmer를 사용했습니다.
이제 다음과 같은 질문이 있습니다. 포아송 회귀에서 흔히 발생하는 문제는과 분산입니다. 나는 음의 이항 회귀를 사용하고 분산 매개 변수가 간단한 푸 아송 모델의 모델 적합을 향상시키는 지 평가하여 테스트 할 수 있음을 알고 있습니다. 그러나 무작위 효과 상황에서 그렇게하는 방법을 모르겠습니다.
- 내 상황에서 과대 산포를 어떻게 테스트해야합니까? 나는 맞추는 방법을 알고있는 간단한 포아송 / 음수 이항 회귀 (임의의 효과없이)에서과 분산을 테스트했습니다. 이 테스트는과 분산의 존재를 시사합니다. 그러나 이러한 모델은 클러스터링을 고려하지 않기 때문에이 테스트가 잘못되었다고 가정합니다. 또한과 분산 테스트에 대한 오프셋의 역할에 대해 잘 모르겠습니다.
- 음의 이항 랜덤 효과 회귀 모델과 같은 것이 있으며 R에 어떻게 적합시켜야합니까?
- 반복적 인 측정 구조, 변수 계수 및 노출 (코딩 단위)을 고려하여 데이터를 사용해야하는 대체 모델에 대한 제안이 있습니까?