포아송 회귀 vs 로그 수 최소 제곱 회귀?


21

포아송 회귀는 로그 링크 기능 이있는 GLM 입니다.

비정규 분산 카운트 데이터를 모델링하는 다른 방법은 로그 (또는 log (1 + count)를 0으로 처리)를 사용하여 사전 처리하는 것입니다. 로그 카운트 반응에 대해 최소 제곱 회귀 분석을 수행하면 포아송 회귀 분석과 관련이 있습니까? 비슷한 현상을 처리 할 수 ​​있습니까?


6
카운트가 0 인 로그를 어떻게 계획합니까?
whuber

3
확실히 동일하지 않습니다. 이것을 쉽게 볼 수있는 방법은 카운트가 0 인 경우 어떤 일이 일어날 지 살펴 보는 것입니다. (@whuber의 의견을보기 전에 작성된 주석. 분명히이 페이지는 내 브라우저에서 적절하게 새로 고쳐지지 않았습니다.)
Cardinal

좋아, 분명히 log (1 + count)라고 말해야한다. 분명히 동등한 것은 아니지만 관계가 있는지 또는 비슷한 현상을 처리 할 수 ​​있는지 궁금합니다.
Brendan OConnor

1
이 문제에 대한 유용한 토론이 여기에 있습니다 : blog.stata.com/2011/08/22/…
Michael Bishop

답변:


22

한편으로, 포아송 회귀 분석에서 모형 방정식의 왼쪽은 예상 카운트의 로그입니다 : .로그(이자형[와이|엑스])

한편, "표준"선형 모형에서 왼쪽은 정규 반응 변수 의 예상 값입니다 . 특히, 링크 기능은 식별 기능입니다.이자형[와이|엑스]

이제 가 포아송 변수이고 로그를 가져 와서 정규화하려고 한다고 가정하겠습니다 : . 때문에 정상 있어야하는데 당신은 왼쪽 인에 대한 표준 선형 모델에 맞게 계획 . 그러나 일반적으로 . 결과적으로이 두 가지 모델링 방식이 다릅니다.Y ' = 로그 ( Y ) Y ' E [ Y ' | x ] = E [ 로그 ( Y ) | x ] E [ 로그 ( Y ) | x ] log ( E [ Y | x ] )와이와이'=로그(와이)와이'이자형[와이'|엑스]=이자형[로그(와이)|엑스]이자형[로그(와이)|엑스]로그(이자형[와이|엑스])


6
실제로 일부 측정 가능 함수에 대해 아니라면 , 즉 는 의해 완전히 결정된다 . 이자형(로그(와이)|엑스)로그(이자형(와이|엑스)) (와이=에프(엑스)|엑스)=1σ(엑스)에프와이엑스
추기경

@추기경. 잘 넣어.
suncoolsu

9

두 가지 중요한 차이점이 있습니다.

먼저, 원래의 척도에서 예측 된 값이 다르게 동작합니다. 로그 선형 최소 제곱에서 조건부 기하학적 수단을 나타냅니다. 로그-포아송 모형에서 조건부 평균을 나타냅니다. 이러한 유형의 분석의 데이터는 종종 왜곡되어 있기 때문에 조건부 기하 평균이 조건부 평균을 과소 평가합니다.

두 번째 차이점은 묵시적 ​​분포입니다. 대수 정규 대 포아송입니다. 이것은 잔차의이 분산 구조와 관련이있다 : 제곱 기대 값에 비례하는 잔차 분산 (lognormal) 대 기대 값에 비례하는 잔차 분산 (Poisson).


-1

한 가지 명백한 차이점은 포아송 회귀는 점 예측으로 정수를 생성하고 로그 카운트 선형 회귀는 비 정수를 생성 할 수 있다는 것입니다.


12
어떻게 작동합니까? GLM이 기대 사항을 추정 하지 않습니까?
whuber

1
사실이 아닙니다. 기계적으로, 포아송 회귀는 비정 수를 완벽하게 처리 할 수 ​​있습니다. 표준 오차는 포아송 분포가 아니지만 강력한 표준 오차를 대신 사용할 수 있습니다.
Matthew
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.