오프셋이있는 포아송 랜덤 효과 모델의 과대 산포 및 모델링 대안


12

개체 내 실험을 사용하여 실험 연구의 카운트 데이터를 모델링 할 때 여러 가지 실용적인 질문에 부딪 쳤습니다. 실험, 데이터 및 지금까지 수행 한 작업에 대해 간단히 설명하고 질문을합니다.

응답자의 샘플에 4 개의 다른 영화가 순서대로 표시되었습니다. 각 영화가 끝난 후 인터뷰를 진행하여 RQ에 관심이있는 특정 진술 (예측 카운트 변수)의 발생 횟수를 세었습니다. 또한 가능한 최대 발생 횟수 (코딩 단위; 오프셋 변수)도 기록했습니다. 또한 영화의 여러 특징은 연속적인 척도로 측정되었으며, 그 중 하나는 진술의 수에 대한 영화 특징의 영향에 대한 인과 가설이 있고 다른 것은 통제 (예측 자)입니다.

지금까지 채택 된 모델링 전략은 다음과 같습니다.

원인 변수가 공변량으로 사용되고 다른 변수가 제어 공변량으로 사용되는 랜덤 효과 푸 아송 모형을 추정합니다. 이 모델의 오프셋은 'log (units)'(코딩 단위)와 같습니다. 임의의 효과가 피사체에 적용됩니다 (영화 별 카운트는 피사체에 중첩됩니다). 우리는 인과 가설이 확인되었다 (인과 변수의 계수). 추정에서 R의 lme4 패키지, 특히 함수 glmer를 사용했습니다.

이제 다음과 같은 질문이 있습니다. 포아송 회귀에서 흔히 발생하는 문제는과 분산입니다. 나는 음의 이항 회귀를 사용하고 분산 매개 변수가 간단한 푸 아송 모델의 모델 적합을 향상시키는 지 평가하여 테스트 할 수 있음을 알고 있습니다. 그러나 무작위 효과 상황에서 그렇게하는 방법을 모르겠습니다.

  • 내 상황에서 과대 산포를 어떻게 테스트해야합니까? 나는 맞추는 방법을 알고있는 간단한 포아송 / 음수 이항 회귀 (임의의 효과없이)에서과 분산을 테스트했습니다. 이 테스트는과 분산의 존재를 시사합니다. 그러나 이러한 모델은 클러스터링을 고려하지 않기 때문에이 테스트가 잘못되었다고 가정합니다. 또한과 분산 테스트에 대한 오프셋의 역할에 대해 잘 모르겠습니다.
  • 음의 이항 랜덤 효과 회귀 모델과 같은 것이 있으며 R에 어떻게 적합시켜야합니까?
  • 반복적 인 측정 구조, 변수 계수 및 노출 (코딩 단위)을 고려하여 데이터를 사용해야하는 대체 모델에 대한 제안이 있습니까?


1
고마워, 매우 도움이! 어쩌면 누군가가 이것과 다른 정보에서 답을 만들고 싶어 할 것입니다.
tomka

답변:


1

요청 된 질문 수와 관련하여 가능한 최대 개수의 답변이 있습니다. 이것을 계산 유형 의 포아송 프로세스 로 모델링 할 수 있지만 , 또 다른 해석 은 포아송 프로세스에 계산 된 답변의 수에 대한 이론적 인 제한이 없음, 즉 입니다. 또 다른 분포, 즉 베타 이항 과 같은 유한 한지지를 갖는 불연속적인 분포 는보다 가변적 인 형태를 가지므로 더 적합 할 수 있습니다. 그러나 그것은 추측 일 뿐이며 실제로는 무차별 대입을 사용하여보다 일반적인 질문에 대한 답변을 검색합니다 ...[0,)

유용한 해답을 보장하지 않는 과 분산을 확인하는 대신 분산 을 정량화하기 위해 분산 지수를 조사 할 수 있지만 적합 품질 검색의 이산 형 분포 옵션을 사용하여 최상의 분포를 찾는 것이 더 유용합니다. 프로그램 (예 : Mathematica의 FindDistribution 루틴). 이러한 유형의 검색은 알려진 분산 (들)이과 분산을 완화 할뿐만 아니라 여러 다른 데이터 특성, 예를 들어 12 개로 측정했을 때 적합도를 더 유용하게 모델링하는 데 가장 잘 알려진 분포 (들)를 추측하는 상당히 철저한 작업을 수행합니다. 다른 방법들.

후보 분포를 추가로 조사하기 위해 균일 검사 및 / 또는 분포 유형을 확인하기 위해 잔차 검사 잔차게시 하고 후보 분포가 데이터의 물리적 설명에 따라 조정될 수 있는지 여부도 고려합니다. 이 절차의 위험은 확장 된 데이터 세트의 최상의 모델링과 일치하지 않는 분포를 식별하는 것입니다. 사후 절차를 수행하지 않을 위험은 적절한 테스트 (쓰레기 수거 중 쓰레기)없이 임의로 선택된 분배를 우선적으로 할당하는 것입니다. 사후 우월성이 방법은 피팅 오차를 제한하고 그것의 약점이기도합니다. 즉, 많은 분포 피팅이 시도 될 때 순수한 기회를 통해 모델링 오차를 과소 평가할 수 있습니다. 그것이 잔류 물을 조사하고 육체 성을 고려하는 이유입니다. 위로 아래로 또는 선험적 방법 제공 이러한 사후 타당성에 대한 확인. 즉, 모델링의 물리적 특성을 다른 분포와 비교하는 유일한 방법은 사후 비교를하는 것입니다. 따라서 물리 이론의 본질이 생겨나 고, 우리는 대안적인 설명으로 소진되기 전에 많은 실험으로 데이터에 대한 가설 적 설명을 테스트합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.