포아송 회귀는 로그 링크 기능 이있는 GLM 입니다.
비정규 분산 카운트 데이터를 모델링하는 다른 방법은 로그 (또는 log (1 + count)를 0으로 처리)를 사용하여 사전 처리하는 것입니다. 로그 카운트 반응에 대해 최소 제곱 회귀 분석을 수행하면 포아송 회귀 분석과 관련이 있습니까? 비슷한 현상을 처리 할 수 있습니까?
포아송 회귀는 로그 링크 기능 이있는 GLM 입니다.
비정규 분산 카운트 데이터를 모델링하는 다른 방법은 로그 (또는 log (1 + count)를 0으로 처리)를 사용하여 사전 처리하는 것입니다. 로그 카운트 반응에 대해 최소 제곱 회귀 분석을 수행하면 포아송 회귀 분석과 관련이 있습니까? 비슷한 현상을 처리 할 수 있습니까?
답변:
한편으로, 포아송 회귀 분석에서 모형 방정식의 왼쪽은 예상 카운트의 로그입니다 : .
한편, "표준"선형 모형에서 왼쪽은 정규 반응 변수 의 예상 값입니다 . 특히, 링크 기능은 식별 기능입니다.
이제 가 포아송 변수이고 로그를 가져 와서 정규화하려고 한다고 가정하겠습니다 : . 때문에 정상 있어야하는데 당신은 왼쪽 인에 대한 표준 선형 모델에 맞게 계획 . 그러나 일반적으로 . 결과적으로이 두 가지 모델링 방식이 다릅니다.Y ' = 로그 ( Y ) Y ' E [ Y ' | x ] = E [ 로그 ( Y ) | x ] E [ 로그 ( Y ) | x ] ≠ log ( E [ Y | x ] )
두 가지 중요한 차이점이 있습니다.
먼저, 원래의 척도에서 예측 된 값이 다르게 동작합니다. 로그 선형 최소 제곱에서 조건부 기하학적 수단을 나타냅니다. 로그-포아송 모형에서 조건부 평균을 나타냅니다. 이러한 유형의 분석의 데이터는 종종 왜곡되어 있기 때문에 조건부 기하 평균이 조건부 평균을 과소 평가합니다.
두 번째 차이점은 묵시적 분포입니다. 대수 정규 대 포아송입니다. 이것은 잔차의이 분산 구조와 관련이있다 : 제곱 기대 값에 비례하는 잔차 분산 (lognormal) 대 기대 값에 비례하는 잔차 분산 (Poisson).