연속 데이터에 포아송 회귀를 사용합니까?


11

포아송 분포를 사용하여 연속 데이터와 이산 데이터를 분석 할 수 있습니까?

응답 변수가 연속적이지만 정규 분포가 아닌 포아송 분포와 비슷한 몇 가지 데이터 세트가 있습니다. 그러나 포아송 분포는 이산 분포이며 일반적으로 숫자 또는 개수와 관련이 있습니다.


그렇다면 경험적 분포는 감마 변이와 어떻게 다릅니 까?
whuber

1
이 데이터에 감마 분포를 사용했습니다. 로그 링크와 함께 감마 분포를 사용하면 과도하게 분산 된 포아송 모델에서 얻은 것과 거의 동일한 결과를 얻을 수 있지만, 대부분의 통계 패키지에서 포아송 회귀에 익숙한 것은 더 단순하고 훨씬 유연합니다.
user3136

whuber의 감마 제안과 같이 더 나은 다른 배포판이 없을까요?
Peter Flom

1
@PeterFlom-R의 glmnet 패키지가 로그 링크 기능이있는 Gamma 제품군 또는 Gaussian 제품군을 지원하지 않기 때문에이 문제가 많이 발생하는지 궁금합니다. 그러나 glmnet이 예측 모델링 패키지로 사용되기 때문에 (사용자는 계수 오차가 아닌 모형 계수에만 관심이 있음) Poisson dbn은 일관된 계수를 생성하기 때문입니다. 분포에 관계없이 지속적인 반응을 갖는 ln [E (y)] = beta0 + beta * X 형식의 모델에 대한 추정치는 glmnet의 저자가 이러한 추가 제품군을 포함하지 않았다고 추측합니다.
RobertF

답변:


12

여기서 관련된 일반화 된 선형 모형의 주요 가정은 예측 변수 값을 고려하여 분산과 반응 평균 간의 관계입니다. 포아송 분포를 지정할 때 이것이 의미하는 것은 조건부 분산이 조건부 평균과 같다고 가정한다는 것입니다. * 분포 의 실제 모양 은 그다지 중요하지 않습니다. 평균-분산 관계가 유지되는 한

* 분산이 평균과 비례 중 하나와 같다는 가정을 완화하고 여전히 좋은 결과를 얻을 수 있습니다.


9

일반화 된 선형 모형에서 포아송 반응을 사용하는 것에 대해 이야기하고 있다면, 각 관측치의 분산이 평균과 같다는 가정을 기꺼이하려는 경우 가능합니다.

그렇게하지 않으려면 다른 대안으로 응답을 변환하는 것이 좋습니다 (예 : 로그 가져 오기).


@ user3136이 mean = variance의 가정을 기꺼이하지 않더라도,에서 quasipoisson가족을 사용할 수 있다고 생각 glm합니다.
suncoolsu

2
그러나 내 문제는 지속적인 데이터를 이산으로 변환하려는 이유입니다. 본질적으로 정보를 잃어 버리고 있습니다. 또한 간단한 log변환이 작동 했을 때 왜 데이터를 이산화 시키는가? glm작품을 사용 하지만, 모든 결과는
무증상을

@suncoolsu : 1) quasipoisson은 평균에 대한 가정을 분산에 비례합니다. 2) 변환을 이산으로 의미하는 것이 아니라 변환 (연속 유지)을 의미하므로 다른 모델을 사용할 수 있습니다.
Simon Byrne

네, 동의합니다 죄송합니다. 질문에 대해 이야기하고있었습니다. 유사-포아송은 과잉 권리를 고려합니까? (정확하게 기억한다면, cf Faraway 2006)
suncoolsu

이 특별한 경우에 내가 시도한 변환 (log, sqrt, box-cox)이 정규성에 대해 좋은 근사치를 제공한다는 것에 만족하지 못했습니다. 또한, 정규 점수 변환 방법을 사용하면 대부분의 데이터를 거의 아름다운 정규 도로 변환 할 수 있지만이 변환이 널리 사용되는 것을 보지 못했기 때문에 캐치가 있다고 가정합니다 (역변환이 어렵다).
user3136
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.