한 동료가 불쾌한 이분산성을 가지고 논문에 대한 생물학적 데이터를 분석하고 있습니다 (아래 그림). 그녀는 혼합 모델로 분석하고 있지만 여전히 잔차에 문제가 있습니다.
응답 변수를 로그 변환하면 문제가 해결되고이 질문에 대한 피드백을 바탕으로 적절한 접근 방법 인 것 같습니다. 그러나 원래는 혼합 모델에서 변환 된 변수를 사용하는 데 문제가 있다고 생각했습니다. Littell & Milliken (2006) SAS for Mixed Models 의 진술을 잘못 해석하여 카운트 데이터 를 변환 한 다음 일반 선형 혼합 모델 로 분석하는 것이 부적절한 이유를 지적했습니다 (전체 인용문은 아래에 있음) .
잔차를 개선 한 방법은 포아송 분포를 갖는 일반화 선형 모형을 사용하는 것이 었습니다. Poisson 분포를 사용하여 연속 데이터를 모델링 할 수 있으며 (예 :이 게시물 에서 설명한대로 ) 통계 패키지에서 허용하지만 모델이 적합 할 때 어떤 일이 발생하는지 이해하지 못합니다.
기본 계산이 수행되는 방법을 이해하기 위해 내 질문은 다음과 같습니다. Poisson 분포를 연속 데이터에 맞추면 1) 데이터가 가장 가까운 정수로 반올림됩니까? 2) 이로 인해 정보가 손실되고 3) 언제라도 연속 데이터에 포아송 모델을 사용하는 것이 적절한가?
Littel & Milliken 2006, pg 529 "[count] 데이터 변환은 비생산적 일 수 있습니다. 예를 들어, 변환은 랜덤 모델 효과의 분포 나 모델의 선형성을 왜곡시킬 수 있습니다. 더 중요한 것은 데이터 변환이 여전히 가능성을 열어 둔다는 점입니다 결과적으로, 변환 된 데이터를 사용하는 혼합 모델로부터의 추론은 매우 의심 스럽다. "