계수 데이터에 푸 아송 회귀 분석이 사용되는 이유는 무엇입니까?


33

투표와 같은 특정 데이터 세트의 경우 성능이 더 우수하다는 것을 이해합니다. 포아송 회귀 분석이 왜 일반 선형 회귀 분석 또는 로지스틱 회귀 분석에 사용됩니까? 그것에 대한 수학적 동기는 무엇입니까?


또 다른 관점은이 게시물에 대한 내 답변을 참조하십시오 : stats.stackexchange.com/questions/142338/…
kjetil b halvorsen

답변:


51

푸 아송 분포 데이터는 본질적으로 정수 값이므로 카운트 데이터에 적합합니다. 정규 선형 최소 제곱 (OLS, 사용자는 "선형 회귀"라고 함)은 실제 값이 일반적으로 예상 값 주위에 분포 되어 있고 양수 또는 음수, 정수 또는 분수 등의 실제 값을 취할 수 있다고 가정합니다 . 마지막으로 로지스틱 회귀 분석 은 "질병이 있음"과 "질병이 없음"과 같이 0-1 값 (TRUE-FALSE 값)의 데이터에만 적용됩니다. 따라서 포아송 분포는 카운트 데이터에 가장 적합합니다.

즉, 정규 분포는 평균이 30 정도가 넘는 데이터의 경우 포아송 분포에 대한 근사치입니다. 그리고 회귀 프레임 워크에서 개수에 영향을 미치는 예측 변수가있는 경우 포아송 분포와 회귀 분석에서 평균과 분산이 동일하다고 가정하기 때문에 정규 분포를 갖는 OLS가 적합하고 실제로 더 일반적 일 수 있습니다. 다른 평균과 분산을 갖는 카운트 데이터 모델의 경우, 예를 들어 음의 이항 분포를 사용할 수 있습니다 .


17
OlS를 사용하여 피팅하는 것만으로는 정규성이 필요하지 않습니다. 정규 분포 가정이 필요한 매개 변수를 추론 할 때입니다.
Dason

1
@Dason : 나는 정정되었습니다.
S. Kolassa-복원 Monica Monica

3
Huber / White / Sandwich 분산 추정치를 사용하면 평균 분산 가정을 완화 할 수 있습니다
.

@Dason 엄격하게 요구되는 것은 아니지만, 적합한 모델에 맞는 올바른 형식의 모델을 사용하면 거의 항상 더 나은 추정치를 얻을 수 있으며 잔차 그림으로 볼 수 있습니다.
Joe

24

본질적으로, 선형 및 로지스틱 회귀는 카운트 결과가 어떻게 보이는지에 대한 잘못된 종류의 가정을 만들기 때문입니다. 당신의 모델이 아무리 무의미한 명령 이건 상관없이, 당신의 주문을 끊임없이 따라갈 수있는 매우 멍청한 로봇이라고 상상해보십시오. 당신이 말하는 것을 평가할 수있는 능력이 완전히 없습니다. 투표와 같은 것이 음의 무한대에서 무한대까지 지속적으로 분배된다고 로봇에게 말하면 그것이 투표와 같다고 생각하며 무의미한 예측을 할 수 있습니다 (로스 페로 트는 다가오는 선거에서 -10.469 표를받습니다).

반대로, 포아송 분포는 이산적이고 양수입니다 (또는 0 ... 0은 양수로 간주됩니다)? 최소한 이것은 로봇이 실제 생활에서 실제로 일어날 수있는 답변을 제공하도록합니다. 그들은 수도 있고하지 않을 수 있습니다 좋은 답변,하지만 적어도 "투표의 수가 캐스트"의 가능한 세트에서 그려집니다.

물론, 포아송은 자체 문제가 있습니다. 투표 수 변수의 평균도 분산과 동일하다고 가정합니다. 실제로 이것이 사실이 아닌 논란의 여지가있는 사례를 본 적이 있는지 모르겠습니다. 다행스럽게도 밝은 사람들은 긍정적이고 이산적인 다른 분포를 생각해 냈지만, 분산이 변할 수있는 변수 (예 : 음성 이항 회귀)를 추가했습니다.


5

당신이 간단한 가정하에 시작하면 수학적으로 정의 된 간격으로 발생하는 이벤트의 가능성이 있음을 인 당신이 간격 이벤트의 예상 번호를 표시 할 수 있습니다 입니다 , 분산도있다 이고 확률 분포λ T = t λ . t λ . t의 P ( N = N ) = ( λ . t ) N E - λ . T=1λT=tλ.tλ.t

p(N=n)=(λ.t)neλ.tn!

이것과 최대 우도 방법 및 일반화 된 선형 모형 (또는 다른 방법)을 통해 포아송 회귀에 도달 합니다.

간단히 말해서 포아송 회귀 분석은 모형의 다른 변수에 의해 결정된 속도 (즉, 단위 시간당 수)로 적은 수의 이벤트를 생성하는 기본 랜덤 프로세스의 가정에 맞는 모델입니다.


3

다른 사람들은 기본적으로 내가하려는 것과 똑같은 말을했지만 내 테이크를 추가 할 것이라고 생각했습니다. 그것은 당신이 정확히하고있는 일에 달려 있지만, 우리는 당면한 문제 / 데이터를 개념화하기를 좋아합니다. 이것은 꽤 잘 예측하는 모델을 만드는 것과 비교하여 약간 다른 접근 방식입니다. 진행 상황을 개념화하려는 경우 질량을 정수 값으로 만하는 음이 아닌 분포를 사용하여 카운트 데이터를 모델링하는 것이 좋습니다. 또한 특정 조건에서 데이터가 실제로 계산된다는 말로 본질적으로 요약되는 많은 결과 가 있습니다.포아송으로 분포합니다. 따라서 문제를 개념화하는 것이 포아송을 반응 변수로 사용하는 것이 좋습니다. 다른 사람들은 그것이 왜 좋은 생각인지 다른 이유를 지적했지만 실제로 문제를 개념화하려고하고 실제로 데이터가 어떻게 생성 될 수 있는지 이해한다면 포아송 회귀를 사용하는 것이 어떤 상황에서 의미가 있습니다.


2

내 이해는 주로 카운트가 항상 양수이고 불연속 적이므로 Poisson은 그러한 데이터를 하나의 매개 변수로 요약 할 수 있습니다. 가장 중요한 점은 분산이 평균과 같다는 것입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.