카운트 데이터와 함께 사용하기에 가장 적합한 회귀 모델은 무엇입니까?


10

통계에 약간의 노력을 기울이고 있지만 뭔가 붙어 있습니다. 내 데이터는 다음과 같습니다.

Year   Number_of_genes
1990          1
1991          1
1993          3
1995          4

이제 데이터를 기반으로 특정 연도의 유전자 수를 예측할 수있는 회귀 모델을 만들고 싶습니다. 나는 지금까지 선형 회귀로 그것을했지만, 약간의 독서를 했으며이 종류의 데이터에 가장 적합한 선택은 아닌 것 같습니다. 포아송 회귀가 유용 할 수 있다는 것을 읽었지만 무엇을 사용해야하는지 잘 모르겠습니다. 그래서 내 질문은 :

이런 종류의 데이터에 대한 일반적인 회귀 모델이 있습니까? 그렇지 않다면 어떤 방법이 가장 적합한 지 알아 내려면 어떻게해야합니까 (데이터에 대해 알아야 할 점에서)?


내 대답 : stats.stackexchange.com/questions/142338/… 는 매우 관련이 있습니다.
kjetil b halvorsen

2
시계열 데이터에 관한 것입니까?
Michael M

답변:


22

아니요, 일반적인 개수 데이터 회귀 모델 이 없습니다 .

( 연속 데이터에 대한 일반 회귀 모델 이없는 것처럼 정규 분포가 균일 한 잡음을 갖는 선형 모델이 가장 일반적으로 가정되고 일반 최소 제곱을 사용하여 적합하지만 감마 회귀 또는 지수 회귀는 종종 다른 오차 분포 가정을 처리하는 데 사용됩니다 , 또는이 분산 잡음을 다루기 위해 시계열 상황에서 ARCH 또는 GARCH와 같은 조건부이 분산 모델).

일반적인 모델에는 작성시 또는 음 이항 회귀가 포함됩니다. 이 모델은 모든 종류의 소프트웨어, 튜토리얼 또는 교과서를 찾을 수있을 정도로 널리 퍼져 있습니다. 나는 특히 힐베의 음 이항 회귀를 좋아한다 . 이 이전 질문 에서는 다른 카운트 데이터 모델 중에서 선택하는 방법에 대해 설명합니다.

데이터에 "많은"0이 있고 특히 0이 아닌 것과 다른 데이터 생성 프로세스로 인해 0이 발생할 수 있다고 의심되는 경우 (또는 일부 0은 하나의 DGP에서 나오고 다른 0과 0이 아닌 경우) 다른 DGP로부터), 모델이 유용 할 수 있습니다. 가장 일반적인 방법은 ZIP (zero-inflated Poisson) 회귀입니다.

"regression"과 "count-data"태그가있는 이전 질문을 훑어 볼 수도 있습니다 .


편집 : @MichaelM은 좋은 지적을 제기합니다. 이것은 않습니다 카운트 데이터의 시계열과 같은 모습을. (그리고 1992 년과 1994 년의 누락 된 데이터는이 해마다 0이 있어야한다고 제안합니다. 그렇다면 포함 시키십시오. 0은 유효한 숫자이며 정보를 전달합니다.) 또한 이전 질문에 "time-series"및 "count-data"태그가 포함 된 문제를 살펴 보는 것이 좋습니다 .


4
양호하지만 보통 최소 제곱은 모형이 아닌 추정 절차입니다. 당신은 그것을 알고 있지만, 그것은 일반적인 혼란입니다. 그래서 우리는 그것을 탐닉하는 글을 써서는 안됩니다.
Nick Cox

@NickCox : 좋은 지적입니다. 게시물을 수정했습니다.
Stephan Kolassa

11

카운트 데이터에 대해 가장 일반적으로 사용되고 설명되는 선택 분포 인 "기본"은 포아송 분포 입니다. 대부분 첫 번째 실제 사용법의 예를 사용하여 설명됩니다.

이 배포판의 실제 적용은 1898 년 Ladislaus Bortkiewicz가 말 차기로 우연히 죽인 프로이센 군대의 군인 수를 조사하는 임무를 받았을 때 이루어졌다. 이 실험은 Poisson 분포를 신뢰성 공학 분야에 도입했습니다.

λλ

이자형(와이|엑스,β)=λ=특급(β0+β1엑스1++β케이엑스케이)

λ

실제 데이터에 포아송 분포를 사용할 때의 문제는 평균이 분산과 같다고 가정한다는 것입니다. 이 가정을 위반하는 것을 과대 산포 라고 합니다. 이러한 경우 항상 유사 Poisson 모델, Poisson이 아닌 로그 선형 모델 (대수 Poisson은 정규 분포로 근사 할 수 있음), 음 이항 회귀 (Poisson과 밀접한 관련이 있습니다. Berk and MacDonald, 2008 참조) 또는 Stephan Kolassa가 설명한 다른 모델 .

포아송 회귀에 대한 친근한 소개를 위해 Lavery (2010) 또는 Coxe, West and Aiken (2009)의 논문을 확인할 수도 있습니다.


Lavery, R. (2010). 애니메이션 가이드 : 포아송 회귀 소개 NESUG 종이, sa04.

Coxe, S., West, SG 및 Aiken, LS (2009). 카운트 데이터 분석 : 포아송 회귀 및 그 대안에 대한 간단한 소개. 성격 평가 저널, 91 (2), 121-136.

Berk, R., & MacDonald, JM (2008). 과대 산포 및 포아송 회귀 정량적 범죄학 저널, 24 (3), 269-284.


2
포아송 회귀 분석을 사용하여 포아송 분포 피팅을 혼동합니다. 반응에 포아송 분포가 있어야하는 포아송 회귀의 절대적인 요구 사항은 아닙니다. 포아송 회귀 분석은 측정 변수도 포함하여 다양한 긍정적 반응에 적합합니다. 추론에 대한 표준 오류에주의하는 것이 좋지만 다루기 쉽습니다. 예 : blog.stata.com/2011/08/22/…
Nick Cox

@ NickCox는 맞지만 문제는 카운트 데이터에 관한 것이므로 Poisson 회귀의 다른 사용법에 대해 자세히 설명 할 필요는 없습니다.
Tim

3
자세하게 설명 할 필요가 없습니다. 그러나 포아송 회귀를 조금만 밀어야하는 모든 이유. 그 유틸리티는 놀랍게도 거의 알려져 있지 않습니다. 그것은 적어도 더 많은 중간 텍스트에 있어야합니다. 또한 여기서 더 중요한 것은 일단 분산이 다른 모델을 사용해야한다는 의미가 아니라면 전혀 동의하지 않는 것입니다. 이것은 두 가지 다른 문제를 혼동합니다.
Nick Cox

또한, 포아송 회귀를 측정 된 변수와 함께 사용할 수 있다는 사실은 관련이 있습니다. 이러한 경우 평균이 분산과 같은지 여부는 치수가 다르기 때문에 의미가 없습니다. 따라서 그러한 경우에는 요구 사항이 그러한 것이 아니라고 강조합니다.
Nick Cox

3
특급(엑스)

0

포아송 또는 음 이항은 카운트 데이터에 널리 사용되는 두 가지 모델입니다. 분산에 대한 더 나은 가정이 있기 때문에 음의 이항을 선택합니다.


3
"더 나은"은 무엇을 의미합니까?
Tim

2
그것이 의미하는 것처럼 이것은 답변보다 더 많은 의견입니다. 당신은 그것을 확장 할 수 있다고 생각합니까? "더 나은"이라는 단어는 매우 모호합니다
Silverfish

음 이항 (NB) 모델은 군집화로 인한 것으로 가정하여과 분산 (OD) 카운트 데이터를 처리합니다. 그런 다음 포아송 분포 '내부'와 감마 분산 '사이'구조를 갖는 랜덤 절편 모델을 사용합니다. 어느 쪽이 더 나은지는 OD에 대한 가정에 달려 있습니다. OD의 정도가 클러스터 크기에 따라 다르다고 가정하면 NB가 도움이 될 수 있습니다. OD가 클러스터 크기에 비례한다고 가정하면 준-포아송에이 가정이 적용됩니다. OD가 단지 가우스 잡음 인 경우 NB 추정값이 바이어스됩니다. 푸아 송은 덜 편향되지만 OD에서는 표준 오차가 너무 작을 수 있습니다.
Mainard
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.