연속 데이터를 모델링 할 때 포아송 분포는 어떻게 작동하며 정보 손실이 발생합니까?


20

한 동료가 불쾌한 이분산성을 가지고 논문에 대한 생물학적 데이터를 분석하고 있습니다 (아래 그림). 그녀는 혼합 모델로 분석하고 있지만 여전히 잔차에 문제가 있습니다.

응답 변수를 로그 변환하면 문제가 해결되고이 질문에 대한 피드백을 바탕으로 적절한 접근 방법 인 것 같습니다. 그러나 원래는 혼합 모델에서 변환 된 변수를 사용하는 데 문제가 있다고 생각했습니다. Littell & Milliken (2006) SAS for Mixed Models 의 진술을 잘못 해석하여 카운트 데이터 를 변환 한 다음 일반 선형 혼합 모델 로 분석하는 것이 부적절한 이유를 지적했습니다 (전체 인용문은 아래에 있음) .

잔차를 개선 한 방법은 포아송 분포를 갖는 일반화 선형 모형을 사용하는 것이 었습니다. Poisson 분포를 사용하여 연속 데이터를 모델링 할 수 있으며 (예 :이 게시물 에서 설명한대로 ) 통계 패키지에서 허용하지만 모델이 적합 할 때 어떤 일이 발생하는지 이해하지 못합니다.

기본 계산이 수행되는 방법을 이해하기 위해 내 질문은 다음과 같습니다. Poisson 분포를 연속 데이터에 맞추면 1) 데이터가 가장 가까운 정수로 반올림됩니까? 2) 이로 인해 정보가 손실되고 3) 언제라도 연속 데이터에 포아송 모델을 사용하는 것이 적절한가?

Littel & Milliken 2006, pg 529 "[count] 데이터 변환은 비생산적 일 수 있습니다. 예를 들어, 변환은 랜덤 모델 효과의 분포 나 모델의 선형성을 왜곡시킬 수 있습니다. 더 중요한 것은 데이터 변환이 여전히 가능성을 열어 둔다는 점입니다 결과적으로, 변환 된 데이터를 사용하는 혼합 모델로부터의 추론은 매우 의심 스럽다. "

여기에 이미지 설명을 입력하십시오


1
@Tomas와 같이 혼합 모델 전에 변수를 변환해서는 안되는 이유를 알지 못하며이 주제에 대해 많이 읽었습니다. Ramon and Littel 책이 있습니다 .... 어떤 페이지를 참조하고 있습니까?
Peter Flom-모니 티 복원

우리는 페이지 529에 문을 잘못-해석 한에서 그것은집니다
N 브라우어

답변:


22

나는 Huber / White / Sandwich 선형화 된 분산 추정기로 상당히 긍정적 인 결과 Poisson 회귀를 지속적으로 추정하고 있습니다. 그러나 이것이 특별히해야 할 좋은 이유는 아니므로 여기에 실제 참조가 있습니다.

이론 측면에서 와이

포아송이 가장 잘 나온 산토스 실바 (Santos Silva)와 텐 레이로 (Tenreyro) (2006)의 고무적인 시뮬레이션 증거도있다 . 또한 결과에 제로가 많은 시뮬레이션 에서도 잘 수행됩니다 . 자신의 시뮬레이션을 쉽게 수행하여 이것이 눈송이 케이스에서 작동한다는 것을 확신 할 수도 있습니다.

마지막으로, 로그 링크 기능 및 Poisson 제품군과 함께 GLM을 사용할 수도 있습니다. 이것은 동일한 결과를 산출하고 카운트 데이터 전용 무릎 저크 반응을 나타냅니다.

연결되지 않은 링크가없는 참조 :

Gourieroux, C., A. Monfort 및 A. Trognon (1984). "의사 최대 가능성 방법 : 포아송 모형에의 적용", Econometrica , 52, 701-720.


2
Bill Gould가 작성한 Stata 블로그에서이 멋진 블로그 항목을 참조하십시오 -blog.stata.com/2011/08/22/…
boscovich

1
와이

Stata 블로그에는 추가 시뮬레이션 증거 를 제공하는 관련 게시물이 있습니다 .
Dimitriy V. Masterov

6

포아송 분포는 카운트 데이터에만 해당되며, 연속 데이터로 데이터를 공급하는 것은 좋지 않으며 수행해서는 안된다고 생각합니다. 그 이유 중 하나는 연속 변수를 스케일하는 방법을 모르기 때문입니다. 그리고 포아송은 규모에 크게 의존합니다! 여기 간단한 예를 들어 설명해 보았습니다 . 따라서이 이유만으로 카운트 데이터 이외의 다른 용도로는 Poisson을 사용하지 않습니다.

또한 GLM은 링크 기능 (응답 변수 변환, 포아송 경우 로그인) 및 잔차 (이 경우 푸 아송 분포)의 두 가지 작업을 수행합니다. 생물학적 과제, 잔차에 대해 생각한 다음 적절한 방법을 선택하십시오. 때때로 로그 변환을 사용하는 것이 합리적이지만 정규 분포 잔차를 유지합니다.

"하지만 기존의 지식은 데이터를 혼합 모델로 입력해서는 안된다는 것입니다."

처음 들었어요! 전혀 이해가되지 않습니다. 혼합 모델은 무작위 효과가 추가 된 일반 선형 모델과 같습니다. 여기에 정확한 인용을 줄 수 있습니까? 내 생각에, 로그 변환으로 문제가 해결되면 사용하십시오!


도와 주셔서 감사합니다; 내가 "기존의 지혜"라고 생각한 것은 Littel과 Milliken을 잘못 읽은 것이 었습니다. 질문을 편집하고 L & M 2006의 인용문을 추가했습니다.
N Brouwer

@NBrouwer : 그렇습니다. 실제로 잘못 해석 한 것 같습니다. 카운트 데이터를 변환하는 것은 불쾌하고 연속 데이터를 변환하여 데이터를 카운트하고 포아송을 맞추는 것은 더욱 불쾌합니다! 그것이 내가 당신에게 설명하려고 시도한 것입니다. 하지마 필요에 따라 연속 데이터를 간단히 로그 변환하십시오 . 이것은 통계에서 매우 일반적이므로 걱정할 필요가 없습니다.
Curious

5

다음은 포아송 모델을 사용하여 로그 회귀에 맞추는 방법에 대한 또 다른 훌륭한 토론입니다. http://blog.stata.com/2011/08/22/use-poisson-rather-than-regress-tell-a-friend/ (블로그 항목에서 제안한 것처럼 친구에게 말하고 있습니다). 기본적인 추력은 로그 링크 인 Poisson 모델의 일부만 사용한다는 것입니다. 분산이 평균과 같아야하는 부분은 분산의 샌드위치 추정치로 재정의 할 수 있습니다. 그러나 이것은 iid 데이터를위한 것입니다. 클러스터 / 혼합 모델 확장은 Dimitriy Masterov에 의해 올바르게 참조 되었습니다 .


1

문제가 평균에 따른 분산 스케일링이지만 연속적인 데이터가있는 경우 발생한 문제를 수용 할 수있는 연속 분포를 사용하는 것에 대해 생각해 보았습니다. 아마도 감마? 분산은 실제로 음의 이항과 매우 유사한 평균과 2 차 관계를 갖습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.