정규 최소 제곱이 푸 아송 회귀보다 성능이 우수한 이유는 무엇입니까?


18

도시의 각 지역에서 살인 사건의 수를 설명하기 위해 회귀 분석을 시도하고 있습니다. 내 데이터가 포아송 분포를 따른다는 것을 알고 있지만 다음과 같이 OLS를 맞추려고했습니다.

log(y+1)=α+βX+ϵ

그런 다음 포아송 회귀 분석도 시도했습니다. 문제는 내가 OLS 회귀에서 더 나은 결과를 얻는다는 것입니다. 의사 가 높고 (0.71 대 0.57) RMSE도 (3.8 대 8.88. 동일한 단위를 갖도록 표준화되었습니다).R2

왜? 정상입니까? 데이터 분포가 무엇이든 OLS 사용에있어 무엇이 문제입니까?

편집 kjetil b halvorsen 및 기타 제안에 따라 OLS와 Negative Binomial GLM (NB)의 두 가지 모델을 통해 데이터를 피팅했습니다. 나는 내가 가진 모든 기능으로 시작한 다음 중요하지 않은 기능을 하나씩 반복적으로 제거했습니다. OLS는

crimearea=α+βX+ϵ

가중치 = .area

summary(w <- lm(sqrt(num/area) ~  RNR_nres_non_daily + RNR_nres_daily + hType_mix_std + area_filtr + num_community_places+ num_intersect + pop_rat_num + employed + emp_rat_pop + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_highways+ mdist_parks, data=p, weights=area))

error2 <- p$num - (predict(w, newdata=p[,-1:-2], type="response")**2)*p$area

rmse(error2)
[1] 80.64783

NB는 해당 구역의 면적을 상쇄 한 범죄 수를 예측합니다.

summary(m3 <- glm.nb(num ~  LUM5_single  + RNR_nres + mdist_daily + mdist_non_daily+ hType_mix_std + ratio_daily_nondaily_area + area_filtr + num_community_places  + employed  + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_smallparks + mdist_highways+ mdist_parks + offset(log(area)), data=p, maxit = 1000))

error <- p$num - predict(m3, newdata=p[,-1:-2], type="response")

rmse(error)
[1] 121.8714

OLS 잔차 :

여기에 이미지 설명을 입력하십시오

NB 잔차

여기에 이미지 설명을 입력하십시오

따라서 RMSE는 OLS에서 낮지 만 잔차가 그렇게 정상적이지 않은 것 같습니다 ....


좀 더 자세한 내용을 게시 할 수 있습니까? 데이터의 특성은 무엇입니까? 즉, 반응 변수 계수는 무엇입니까? 설명 변수는 무엇입니까?
kjetil b halvorsen

@kjetilbhalvorsen 종속 변수는 지구당 살인 사건의 수입니다 (112 개 지구).
독립된

2
포아송 회귀 분석을 사용하여이 모형을 적합하게했다면, 모든 지구가 아메 크기가 아닌 지역을 설명하기 위해 log (districtsize)를 오프셋으로 포함시킬 것입니다. 그렇지 않으면.
mdewey

1
ML 추정치 (및 R M S E ) 에서 OLS p s e u d o - R 2 를 비교 하면 특정 모형이 얼마나 좋은지에 대한 표시를 제공 한다는 생각의 근거는 무엇입니까 ? 구조적으로 OLS는 R 2를 최대화 합니다. 포이즌 회귀 분석은 p s e u d o - R 2 를 최대화하도록 구성 되었습니까? 나는 그렇게 생각하지 않으며,이 비교가 유용하다고 생각하지 않습니다. 아르 자형2에스이자형영형아르 자형2아르 자형미디엄에스이자형아르 자형2에스이자형영형아르 자형2
coffeinjunky 2016 년

1
추가해야 할 또 다른 것 -ols 에서 z = log ( y + 1 )에 설명 된 분산의 %를 말하는 반면 poisson psuedo R 2 는 설명 된 y 의 분산의 %를 표시하려고합니다 . 이것은 또한 그 차이를 설명 할 수있다아르 자형2=로그(와이+1)아르 자형2와이
확률

답변:


16

문제의 일부가 선택한 성능 측정 항목에있을 수 있습니다. RMSE를 사용하여 테스트 성능을 측정하는 경우 MSE를 최소화하기 위해 모델을 훈련하면 테스트 기준과 일치하여 중요한 것으로 간주되는 힌트를 제공합니다. Poisson 모델이 Poisson 모델이 더 잘 작동 할 가능성이있는 Poisson 가능성을 사용하여 테스트 세트의 음의 로그 가능성을 사용하여 테스트 성능을 측정하는 경우 (예상 한 것처럼) 알 수 있습니다. 이것은 제기 된 다른 문제와 비교할 때 사소한 문제 일 수 있지만 유용성 검사일 수 있습니다.


1
+1. OP의 목표가 예측이라면 실제로 OLS 모델을 사용하는 근거가있을 수 있습니다! 그럼에도 불구하고 OLS에서 발생하는 기존의 오류 기반 추론은 GLM에 적용 할 수 없습니다. 학생 화 된 잔차를 검사하거나 더 나은 옵션은 모델을 AIC와 비교하는 것입니다.
AdamO

11

먼저, 그러한 데이터로 과대 산포를 예상 할 수 있습니다 (무엇이 무엇인지 모르는 경우 /stats//search?q=what+is+overdispersion%3F 참조 ).

로그(지구 크기)Nr. 살인지구 규모

또 다른 문제는 선형 회귀와 함께 사용한 변환입니다. 카운트 데이터와 함께 사용되는 일반적인 분산 안정화 변환은 로그가 아닌 제곱근입니다.

와이나는/엑스나는와이나는푸 아송(λ엑스나는)

이자형와이나는엑스나는λV와이나는엑스나는엑스나는1
엑스나는와이나는/엑스나는로그(와이나는/엑스나는+1)
    EDIT

게시물의 추가 분석에 대해서는 서로 다른 응답이 사용되므로 rmse를 두 모델간에 직접 비교할 수 없습니다! 직접 비교하려면 예측 된 값을 원래 스케일로 역변환해야합니다. 그런 다음 rmse 자신을 계산하고 볼 수 있습니다. 그러나 역변환으로 얻은 예측은 비선형 성으로 인해 편향 될 수 있습니다. 따라서 역변환 된 예측을 약간 조정하면 더 유용 할 수 있습니다. 어떤 경우에는 이론적으로 계산할 수 있지만 부트 스트랩을 사용할 수 있습니다.


가중 OLS 뒤의 공명을 실제로 이해하지는 못했지만 제안한대로 모델을 장착했습니다. 어떻게 생각해?
marcodena

6

아르 자형2아르 자형2아르 자형2아르 자형2


2

귀하의 데이터는 정규 분포가 아니지만 (포아송 회귀 분석을 실행 한 이유라고 생각합니다) 데이터는 포아송 분포가 아닐 수도 있습니다. 포아송 분포는 평균과 분산이 동일하다고 가정하지만, 그렇지 않을 수도 있습니다 (다른 답변에서 언급했듯이이 불일치를 캡처하여 모형에 통합 할 수 있음). 데이터가 두 모델 모두에 완벽하게 맞지 않기 때문에 OLS의 성능이 향상 될 수 있습니다.

주목해야 할 또 다른 사항은 일반적인 최소 제곱 추정치가 비정규성에 강하므로 합리적인 모델을 얻는 이유 일 수 있습니다. Gauss-Markov 정리는 다음과 같은 가정 하에서 OLS 계수 추정값이 최고 (평균 제곱 오차의 관점에서) 선형 비 편향 추정기 (BLUE)라고합니다.

  • 오류의 평균은 0입니다
  • 관찰 결과는 서로 관련이 없습니다
  • 오차에는 일정한 분산이 있습니다

여기서 정규성의 가정이 없으므로 데이터가이 모델에 매우 적합 할 수 있습니다! 그것으로 말하면, 거기에과 분산 매개 변수가 구운 포아송 모델을 살펴보고 더 나은 결과를 얻을 수 있습니다.


@TynnaDoStat 감사합니다! 나는 분산 매개 변수를 가진 두 가지 모델을 장착했습니다. 어떻게 생각해?
marcodena

2
푸 아송 분포에 대한 분산 = 평균 은 종종 푸 아송 회귀에 대한 문제가있는 가정으로 호출 되지만 여기에 암시되어있는 것처럼 어렵지는 않습니다. 이름에도 불구하고 포아송 회귀의 주요 아이디어는 로그 링크 함수입니다. 조건부 분포에 대한 가정은 그리 중요하지 않습니다. 모든 가정이 적용되지 않는 경우 주로 조정하지 않는 한 표준 오류가 해제 된 것이지만 적합은 종종 의미가 있습니다.
Nick Cox

2
실제로 포아송 회귀는 분산과 평균이 같은 차원을 갖지 않는 음이 아닌 측정 응답에 적합합니다. 예 : blog.stata.com/2011/08/22/…
Nick Cox
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.