이 경우 포아송 회귀는 선형 회귀에 비해 어떤 이점이 있습니까?


12

나는 한 고등학교에서 학생들이 얻은 상 수를 포함하는 데이터 세트를 받았는데, 여기에서 획득 한 상 수의 예측 변수에는 학생이 등록한 프로그램 유형과 최종 시험 점수가 포함됩니다.

선형 회귀 모델이 왜이 경우에 적합하지 않은지, 왜 포아송 회귀를 사용하는 것이 더 좋은지 말해 줄 수 있을지 궁금합니다. 감사.

답변:


14

포아송 대 정규 회귀 분석에 대한 세 가지 점, 모두 모형 사양과 관련이 있습니다.

예측 변수 변화의 영향

수학 테스트 점수와 같은 연속 예측 변수를 사용하는 경우 (통상적 인 로그 링크로) 포아송 회귀는 예측 변수의 단위 변화로 인해 보너스 수의 백분율이 변경됨을 의미합니다. 즉 수학 테스트에서 10 점 이상이 25 % 더 많은 상. 이는 학생이 이미 가지고있는 상 수에 따라 다릅니다. 대조적으로, 일반 회귀는 10 개 이상의 포인트를 고정 된 금액과 연관시킵니다. 모든 상황에서 3 개의 보너스를 더 말합니다. 모델을 만드는 모델을 사용하기 전에 해당 가정에 만족해야합니다. (fwiw 나는 그것이 매우 합리적이라고 생각합니다. 다음 포인트는 모듈로입니다.)

수상 경력이없는 학생들을 상대하기

많은 학생들에게 실제로 많은 상이 수여되지 않는 한, 귀하의상은 대부분 다소 낮습니다. 사실 저는 제로 인플레이션을 예측할 것입니다. 즉, 대부분의 학생들은 상을받지 못하므로 많은 제로를 얻거나 일부 좋은 학생들은 아주 적은 상을받습니다. 이것은 포아송 모델의 가정을 어지럽히고 최소한 보통 모델에는 좋지 않습니다.

적절한 양의 데이터가 있다면 '제로 팽창'또는 '허들'모델이 자연 스러울 것입니다. 두 가지 모델이 결합되어 있습니다. 하나는 학생이 수상을했는지 여부를 예측하는 것이고 다른 하나는 그녀가 전혀 얻지 못한 경우 얼마나 많은 것을 얻었는지 (보통 포아송 모델의 형태)를 예측하는 것입니다. 모든 작업이 첫 번째 모델에있을 것으로 기대합니다.

수상 독점

마지막으로 수상에 관한 작은 점. 수상이 독점적 일 경우, 즉 한 학생이 수상한 경우 다른 학생이 수상을 할 수 없으면 결과가 결합됩니다. 학생에 대한 한 번의 카운트는 서로의 가능한 카운트를 낮 춥니 다. 이것이 걱정할 가치가 있는지 여부는 수상 구조와 학생 인구의 규모에 달려 있습니다. 첫 패스에서 무시하겠습니다.

결론적으로 Poisson은 매우 많은 수를 제외하고는 Normal을 편안하게 지배하지만 Poisson의 가정을 확인하여 추론에 크게 의존하고 필요한 경우 약간 더 복잡한 모델 클래스로 이동할 준비를하십시오.


9

이 경우 포아송 회귀 분석이 더 적합 할 것입니다.

λ

λλ

정규 선형 회귀 분석은 평균 주위의 정규 오차를 가정하므로 동일하게 가중치를 적용합니다. 이것은 학생이 예상되는 1 개의 상을 받았을 경우, 3 개의 상을받는 것만 큼 -2 개의 상을받을 가능성이 높다는 것을 의미합니다.


8

ln(아르 자형에스+0.5)

또한, 예상되는 어워드 수가 매우 많아짐에 따라 @Corone에서 설명한 이유로 OLS의 성능이 향상되어야합니다. 에서 레이크 워 비건 , OLS 길을 가야하는 것입니다.

예상되는 수가 적고 0이 많으면 음 이항 모델에 대해 강력한 표준 오류와 함께 포아송을 사용합니다. NB 회귀 분석은 계수를 생성하는 1 차 조건에 나타나는 분산에 대해 강력한 가정을합니다. 이러한 가정이 충족되지 않으면 계수 자체가 오염 될 수 있습니다. 포아송의 경우에는 그렇지 않습니다.


4

λλ

set.seed(12345)
pois10 <- rpois(1000, 10)
plot(density(pois10))
library(moments)
skewness(pois10)

0에 가까운 0.31의 왜도를 나타냅니다.

나는 또한 @conjugateprior의 요점을 좋아한다. 내 경험상, 포아송 회귀가 잘 맞는 것은 드물다. 나는 보통 음 이항 또는 제로 팽창 모델을 사용하여 감습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.