Poisson 반응 변수의 과대 산포 및 모든 고정 효과 시작 모델을 다루는 세 가지 제안을 살펴 보았습니다.
- 유사 모델을 사용하십시오.
- 음 이항 GLM을 사용하십시오.
- 피사체 수준의 임의 효과가 혼합 된 모델을 사용하십시오.
그러나 실제로 어떤 것을 선택해야하며 왜 그런가? 이 중에서 실제 기준이 있습니까?
Poisson 반응 변수의 과대 산포 및 모든 고정 효과 시작 모델을 다루는 세 가지 제안을 살펴 보았습니다.
그러나 실제로 어떤 것을 선택해야하며 왜 그런가? 이 중에서 실제 기준이 있습니까?
답변:
사람들은 종종 포아송 회귀를 적용하기위한 파라 메트릭 이론적 근거에 대해 이야기합니다 . 실제로 포아송 회귀는 GLM 일뿐입니다. 즉 , 두 가지 가정이 충족 될 때 모든 유형의 데이터 (횟수, 등급, 시험 점수, 이진 이벤트 등)에 대해 포아송 회귀 분석이 정당화됨을 의미합니다 . 1) 평균 결과 의 로그 는 예측 변수의 선형 조합이며 2) 결과 의 분산 은 평균 과 같습니다 . 이 두 조건을 각각 평균 모형과 평균 분산 관계라고합니다.
평균 모델 가정은 예측 변수에 대한 복잡한 조정 세트를 사용하여 다소 완화 될 수 있습니다. 링크 기능이 매개 변수의 해석에 영향을 미치기 때문에 이것은 좋습니다. 미묘한 해석은 과학적 질문에 대답하는 것과 통계 분석의 소비자를 완전히 피하는 것 사이의 차이를 만듭니다. 다른 SE 게시물에서 나는 해석을위한 로그 변환의 유용성에 대해 논의합니다.
그러나 두 번째 가정 (평균-분산 관계)은 추론에 강한 영향을 미친다는 것이 밝혀졌습니다. 평균-분산 관계가 참이 아닌 경우 모수 추정값은 치우 치지 않습니다 . 그러나 표준 오차, 신뢰 구간, p- 값 및 예측은 모두 잘못 보정됩니다. 즉, 유형 I 오류를 제어 할 수 없으며 차선의 힘을 가질 수 있습니다.
분산이 단순히 평균에 비례 하도록 평균 분산을 완화 할 수 있다면 어떨까요? 음 이항 회귀와 Quasipoisson 회귀가이를 수행합니다.
Quasipoisson 모델은 가능성을 기반으로하지 않습니다. 그것들은 비례 상수까지의 포아송 가능성 인 "준 분할 가능성"을 최대화합니다. 비례 상수는 분산이됩니다. 분산은 귀찮은 것으로 간주됩니다매개 변수. 최대화 루틴은 방해 매개 변수의 추정치를 제시하지만, 그 추정은 모집단에 일반화되는 값이 아니라 단지 데이터의 인공물입니다. 분산은 분산이 평균보다 비례 적으로 작거나 큰지 여부에 따라 회귀 매개 변수의 SE를 "축소"또는 "확대"하는 역할 만합니다. 분산은 귀찮은 매개 변수로 취급되기 때문에, quasipoisson 모델은 여러 가지 강력한 특성을 가지고 있습니다. 데이터는 실제로 이분법적일 수 있으며 (비례 평균 분산 가정을 충족하지 않음) 심지어 작은 의존성 소스를 나타낼 수 있으며 평균 모델은 필요하지 않습니다. 정확히 맞지만 회귀 모수에 대한 95 % CI는 점진적으로 정확합니다.데이터 분석의 목표가 일련의 회귀 모수와 결과 간의 연관성을 측정하는 것이라면 일반적으로 quasipoisson 모델이 사용됩니다. 이러한 모델의 한계는 예측 구간을 생성 할 수없고 피어슨 잔차가 평균 모델의 정확도를 알려줄 수 없으며 AIC 또는 BIC와 같은 정보 기준이 이러한 모델을 다른 유형의 모델과 효과적으로 비교할 수 없다는 것입니다.
음수 이항 회귀를 2 모수 포아송 회귀로 이해하는 것이 가장 유용합니다. 평균 모형은 결과의 로그가 예측 변수의 선형 조합 인 Poisson 및 Quasipoisson 모형과 동일합니다. 또한, "scale"매개 변수는 분산이 이전과 마찬가지로 평균에 비례하는 평균 분산 관계를 모델링합니다. 그러나 quasipoisson 모형과 달리이 모형 유형은 정확한 가능성 기반 절차입니다.. 이 경우 분산은 모집단에 어느 정도 일반화 할 수있는 실제 매개 변수입니다. 이것은 quasipoisson에 비해 몇 가지 장점을 제공하지만 내 의견으로는 더 많은 (가상적인) 가정을 부과합니다. quasipoisson 모델과 달리 : 데이터는 독립적이어야하고, 평균 모델은 정확해야하며, 척도 모수는 피팅 된 값의 범위에서 균등해야 올바른 추론을 얻을 수 있습니다. 그러나 이것들은 Pearson 잔차를 검사함으로써 다소 평가 될 수 있으며, 모델은 실행 가능한 예측 및 예측 간격을 생성하며 정보 기준과 비교할 수 있습니다.
음 이항 확률 모델은 포아송-감마 혼합물에서 발생합니다. 즉, 포아송 속도 파라미터에 "감지하는"변동하는 감마 랜덤 변수가 알려져 있지 않다. NB GLM 피팅은 가능성을 기반으로하기 때문에 일반적으로 데이터 생성 메커니즘에 대한 사전 신념을 진술하고이를 현재 모델의 확률 론적 근거와 연결하는 것이 도움이됩니다. 예를 들어, 24 시간 내구 시간 경주에서 은퇴 한 레이서 수를 테스트하는 경우 환경 조건이 내가 측정하지 않은 모든 스트레스 요인이므로 타이어에 영향을 미치는 습기 또는 저온과 같은 DNF의 위험에 기여할 수 있습니다. 견인력과 탈수 및 사고의 위험이 있습니다.
포아송 데이터에 대한 일반 선형 혼합 모델 (GLMM)은 위의 접근법과 비교되지 않습니다. GLMM은 다른 질문에 대답하고 다른 데이터 구조에 사용됩니다. 여기에서 데이터 간의 의존성 소스가 명시 적으로 측정됩니다. GLMM은 임의의 절편과 임의의 기울기를 사용하여 개별 수준의 이질성을 설명합니다. 이것은 우리가 추정하는 것을 수정합니다. 랜덤 효과 는 위에서 설명한 분산 만 아니라 모델링 된 평균과 분산 을 수정합니다 .
종속 데이터에서 측정 할 수있는 두 가지 가능한 연결 수준이 있습니다 (인구 수준 (마진) 및 개별 수준 (조건부)). GLMM은 개별 수준 (조건부) 연관성을 측정한다고 주장합니다. 즉, 전체 수준의 개별 수준 기여자가 결과에 미치는 경우 예측 변수 조합의 상대적 효과는 무엇입니까? 예를 들어, 시험 준비 과정은 모범적 인 학교에 다니는 어린이에게는 거의 영향을 미치지 않는 반면, 도심의 어린이는 엄청난 혜택을 볼 수 있습니다. 유리한 어린이는 긍정적 인 노출 측면에서 곡선보다 너무 높기 때문에 개별적인 수준의 효과는이 상황에서 실질적으로 더 높습니다.
종속 데이터에 quasipoisson 또는 음 이항 모델을 순진하게 적용하면 NB 모델이 잘못되고 Quasipoisson 모델이 비효율적입니다. 그러나 GEE는 quasipoisson 모델을 확장하여 GLMM과 같은 종속 구조를 명시 적으로 모델링하지만 GEE는 한계 (인구 수준) 추세를 측정하고 정확한 가중치, 표준 오류 및 추론을 얻습니다.
이 글은 이미 너무 깁니다 :) 이 튜토리얼 의 첫 두 모델에 대한 자세한 설명과 관심이있는 경우 더 많은 독서에 대한 참조가 있습니다. 문제의 데이터는 말굽 게의 둥지 습관과 관련이 있습니다. 암컷은 둥지에 앉아서 수컷 (위성)은 그녀에게 붙어 있습니다. 연구자들은 여성의 특성에 따라 여성에 부착 된 남성의 수를 측정하려고했습니다. 혼합 모델이 비교할 수없는 이유에 대해 강조했으면합니다. 종속 데이터가있는 경우 종속 데이터가 응답하려고하는 질문 (GLM 또는 GEE)에 올바른 모델을 사용해야합니다.
참고 문헌 :
[1] Agresti, 범주 형 데이터 분석 2 판
[2] Diggle, Heagerty, Liang, Zeger, 종단 데이터 분석 2 차 개정판.