제로 팽창 모델과 허들 모델의 차이점은 무엇입니까?


81

소위 제로 팽창 분포 (모델)와 소위 제로 허들 분포 (모델) 사이에 명확한 차이가 있는지 궁금합니다. 용어는 문헌에서 자주 발생하며 같은 용어가 아니라고 생각하지만 간단한 용어의 차이점을 설명해 주시겠습니까?

답변:


80

흥미로운 질문 감사합니다!

차이점 : 표준 카운트 모델의 한 가지 한계는 0과 0이 아닌 (양수가) 동일한 데이터 생성 프로세스에서 나온 것으로 가정한다는 것입니다. 허들 모델의 경우 ,이 두 프로세스는 동일하게 제한되지 않습니다. 기본 아이디어는 베르누이 확률이 카운트 변이가 0인지 또는 양의 실현인지에 대한 이진 결과를 지배한다는 것입니다. 실현이 양수이면 장애물이 교차되고 양수의 조건부 분포는 0에서 잘린 카운트 데이터 모델에 의해 결정됩니다. 팽창하지 않은 모델응답 변수는 Bernoulli 분포 (또는 0으로 점 질량이라고 함)와 Poisson 분포 (또는 음수가 아닌 정수에서 지원되는 다른 개수 분포)의 혼합으로 모델링됩니다. 자세한 내용 및 공식은 Gurmu and Trivedi (2011) 및 Dalrymple, Hudson 및 Ford (2003)를 참조하십시오.

예 : 허들 모델은 개인이 직면 한 순차적 인 의사 결정 프로세스에 의해 동기 부여 될 수 있습니다. 먼저 무언가를 사야하는지 결정한 다음 그 양을 결정하십시오 (양수 여야 함). 무언가를 구매하기로 결정한 후 아무것도 구매할 수 없거나 잠재적으로 구매할 수없는 경우, 제로 팽창 모델이 적합한 상황의 예입니다. 0은 두 가지 출처에서 나올 수 있습니다. a) 구매 결정이 없습니다. b) 사고 싶어했지만 아무것도 사지 않았다 (예 : 품절).

베타 : 허들 모델은 16 장 Frees (2011)에 설명 된 두 부분으로 구성된 모델의 특별한 경우입니다. 여기서 두 부분으로 구성된 모델의 경우 활용되는 건강 관리의 양은 카운트 변수 일뿐만 아니라 연속적인 것일 수 있습니다. 따라서 문헌에서 "제로 부풀려진 베타 분포"라고 다소 혼동되는 것은 사실 두 부분으로 구성된 분포와 모델 (계리 학에서 매우 일반적 임)의 클래스에 속하며 이는 위의 허들 모델 정의와 일치합니다. . 이 우수한 책은 보험 계리 적 적용의 공식과 예와 함께 12.4.1 장의 무 팽창 모델과 12.4.2 장의 허들 모델에 대해 논의했다.

이력 : 공변량이없는 ZIP (zero-inflated Poisson) 모델은 오랜 이력을 가지고 있습니다 (예 : Johnson and Kotz, 1969 참조). 공변량을 포함하는 ZIP 회귀 모델의 일반적인 형태는 Lambert (1992) 때문입니다. 허들 모델은 캐나다 통계 학자 Cragg (1971)에 의해 처음 제안되었고, 이후 Mullahy (1986)에 의해 추가로 개발되었다. 또한 양수 기하학적 계수가 Bernoulli 프로세스와 함께 사용되어 0으로 지배되는 정수 값 프로세스를 설명하는 Croston (1972)을 고려할 수 있습니다.

R : 마지막으로 R 을 사용하는 경우 Achim Zeileis의 hurdle () 및 zeroinfl () 함수를 포함하는 Simon Jackman의 "정치 과학 전산 연구소에서 개발 한 R의 클래스 및 방법"패키지 pscl이 있습니다.

위의 내용을 작성하기 위해 다음 참조가 참조되었습니다.

  • Gurmu, S. & Trivedi, 레크리에이션 여행을위한 카운트 모델에서 PK 초과 제로 비즈니스 및 경제 통계 저널, 1996, 14, 469-477
  • Johnson, N., Kotz, S., 통계 분포 : 이산 분포. 1969, 휴스턴 미진, 보스턴
  • Lambert, D., Zero-flated Poisson 회귀, 제조 결함에 적용. Technometrics, 1992, 34 (1), 1-14.
  • Cragg, JG 내구재 수요에 적용되는 제한된 종속 변수에 대한 일부 통계 모델 Econometrica, 1971, 39, 829-844
  • Mullahy, J. 일부 수정 된 카운트 데이터 모델의 사양 및 테스트 Journal of Econometrics, 1986, 33, 341-365
  • 보험 계리 및 재무 응용 프로그램을 사용한 자유, EW 회귀 모델링 Cambridge University Press, 2011
  • 달림 플, ML; SIDS 전산 통계 및 데이터 분석, 2003, 41, 491-504에 적용한 Hudson, IL & Ford, RPK 유한 혼합물, 제로 팽창 포아송 및 허들 모델
  • Croston, 간헐적 수요에 대한 JD 예측 및 재고 관리 운영 연구 분기 별, 1972, 23, 289-303

2
그렇다면 허들 모델은 실제로 "모델"입니까? 아니면 두 개의 순차적이고 별도로 추정되는 모델을 실행합니까? 경쟁력 점수 (1-승리 마진)를보고 선거 레이스의 모델링 경쟁력을 상상해보십시오. 동점이 없기 때문에 [0, 1]로 제한됩니다 (예 : 1). 따라서 먼저 로지스틱 회귀 분석을 수행하여 0과 (0, 1)을 분석합니다. 그런 다음 베타 회귀 분석을 수행하여 (0, 1) 사례를 분석합니다. 이것들은 자체 계수와 별도의 추정치가있는 두 개의 완전히 다른 모델 인 것 같습니다. 아니면 뭔가 빠졌습니까?
Mark White

예를 들어, 답에서 0은 (a) 자동차를 사지 않기로 결정했거나 (b) 원하지만 재고가 없기 때문일 수 있습니다. 그것은 허들 모델이 순차적으로 수행되기 때문에 둘을 구별 할 수없는 것처럼 보입니다 ...?
Mark White

또 다른 예를 들어 보자. 반응은 전통적인 리 커트 척도와 같이 [1, 7]이며, 7에 큰 천장 효과가있다. [1, 7) 대 7의 로지스틱 회귀 분석과 그 다음 Tobit 회귀 분석으로 허들 모델을 수행 할 수있다. 관찰 된 응답이 <7 인 모든 경우에 대해, 우리는 두 세트의 회귀 계수를 얻으며, 이들은 개별적으로 추정됩니다. 이러한 프로세스를 공동으로 모델링하지 않고 완전히 다른 두 가지 모델로 보이는 것 같습니다. 그렇다면 장애물은 실제로 모델입니까, 아니면 두 가지 유형의 일반 선형 모델을 연속으로 수행하는 과정입니까?
Mark White

나는이 질문을 내 자신의 게시물에서 확장했다 : stats.stackexchange.com/questions/320924/…
Mark White

47

허들 모델은 제로를 생성 할 수있는 프로세스가 하나만 있다고 가정하고, 제로 팽창 모델은 제로를 생성 할 수있는 두 개의 다른 프로세스가 있다고 가정합니다.

허들 모델은 두 가지 유형의 주제를 가정합니다 : (1) 결과를 경험하지 않은 사람들과 (2) 항상 결과를 적어도 한 번 경험하는 사람들. 제로 팽창 모델은 주제를 (1) 결과를 경험하지 못한 사람과 (2) 결과를 경험할 수 있지만 항상 그렇지는 않은 사람으로 개념화합니다.

간단히 말해서, 제로 팽창 모델과 허들 모델은 두 부분으로 설명됩니다.

첫 번째는 온-오프 부분이며 이진 프로세스입니다. 시스템은 확률 로 "off" 이고 확률 "on"입니다 . (여기서, 는 인플레이션 확률로 알려져 있습니다.) 시스템이 "off"이면 0 카운트 만 가능합니다. 이 부분은 제로 팽창 및 허들 모델에서 동일합니다.π1ππ

두 번째 부분은 계산 부분이며 시스템이 "켜질 때"발생합니다. 이것은 제로 팽창 및 허들 모델이 다른 곳입니다. 팽창이 0 인 모델에서는 카운트가 여전히 0 일 수 있습니다. 허들 모델에서는 0이 아니어야합니다. 이 부분의 경우, 제로 팽창 된 모델은 "일반적인"이산 확률 분포를 사용하고, 허들 모델은 제로 절단 된 이산 확률 분포 함수를 사용합니다.

장애물 모델의 예 : 자동차 제조업체는 자동차에 대한 두 가지 품질 관리 프로그램을 비교하려고합니다. 제기 된 보증 청구 건수를 기준으로 비교합니다. 각 프로그램에 대해 무작위로 선택된 고객 세트가 1 년 동안 추적되며 고객이 제출 한 보증 청구 횟수가 계산됩니다. 그런 다음 두 프로그램 각각에 대한 인플레이션 확률을 비교합니다. "off"상태는 "제로 클레임 제기"이고 "on"상태는 "적어도 하나의 클레임 제기"입니다.

제로 팽창 모델의 예 : 위의 동일한 연구에서, 연구원들은 자동차에 대한 일부 수리는 보증 청구서를 제출하지 않고 수리되었음을 발견했습니다. 이러한 방식으로, 0은 품질 관리 문제가없고 보증 청구와 관련이없는 품질 관리 문제가 혼합 된 것입니다. "오프"상태는 "제로 클레임 제기"를 의미하고 "온"상태는 "적어도 하나의 클레임을 제기했거나 클레임을 제기하지 않고 수리가 수정되었습니다"를 의미합니다.

두 유형의 모델이 동일한 데이터 세트에 적용된 연구에 대해서는 여기 를 참조 하십시오 .


자세한 답변 주셔서 감사합니다. 0이 추가 된 표준 베타 배포판에 적합한 용어가 무엇인지 살펴 보시겠습니까? 제로 팽창 모델에 대한 정의를 사용하면 분명히 제로의 소스가 하나이므로 제로 팽창이라고 부를 수 없습니다 ...이 토론 stats.stackexchange.com/questions/81343/…
skulker

2
@Hibernating이 제안한 "제로 추가 베타 배포"를 좋아합니다
Darren James

10

ZIP 모델 ~ 0에서 확률이 이고 ~ Poisson ( ) 분포가 확률이 이므로 ZIP 모델은 2 개의 성분을 가진 혼합 모델이며 yiπyiλ1π

Pr(yj=0)=π+(1π)eλ
Pr(yj=xi)=(1π)λxieλxi!,xi1

그리고 확률 및 ~ 확률이 인 절단 포아송 ( ) 분포를 가진 장애물 모델 ~ 0에서 , yiπyiλ1π

Pr(yj=0)=π
Pr(yj=xi)=(1π)1eλ(λxieλxi!),xi1

4

허들 모델과 관련 하여 수학 및 통계 모델링의 발전 (Arnold, Balakrishnan, Sarabia, & Mínguez, 2008) 에서 인용 한 내용은 다음과 같습니다.

허들 모델은 허들 아래의 프로세스와 위의 하나의 프로세스를 특징으로합니다. 분명히 가장 널리 사용되는 장애물 모델은 장애물을 0으로 설정하는 것입니다. 공식적으로, 0에서 허들 모델은 다음과 같이 표현됩니다 : for forP(Ni=ni)=f1(0)ni=0 P(Ni=ni)=1f1(0)1f2(0)f2(ni)=ϕf2(ni)ni=1,2,...

변수 는 장애물을 넘을 확률, 또는보다 정확하게 보험의 경우 적어도 하나의 클레임을보고 할 확률로 해석 될 수 있습니다.ϕ

제로 팽창 모델에 관해서, Wikipedia는 말합니다 :

제로 팽창 모델은 제로 팽창 확률 분포, 즉 빈번한 제로 값 관측을 허용하는 분포를 기반으로하는 통계 모델입니다.

제로 팽창 된 포아송 모델은 단위 시간에 초과 제로 카운트 데이터를 포함하는 랜덤 이벤트와 관련이 있습니다. 예를 들어, 특정 보험 적용자가 보험 회사에 청구 한 청구 건수는 거의 항상 0입니다. 그렇지 않으면 상당한 손실로 인해 보험 회사가 파산하게됩니다. ZIP (Zero Inflated Poisson) 모델은 두 개의 제로 생성 프로세스에 해당하는 두 가지 구성 요소를 사용합니다. 첫 번째 프로세스는 구조적 0을 생성하는 이진 분포에 의해 관리됩니다. 두 번째 프로세스는 카운트를 생성하는 포아송 분포 (Poisson distribution)에 의해 제어되며,이 중 일부는 0 일 수 있습니다. 두 가지 모델 구성 요소는 다음과 같이 설명됩니다.[1]

Pr(yj=0)=π+(1π)eλ
Pr(yj=hi)=(1π)λhieλhi!,hi1
결과 변수 음이 아닌 정수 값이있는 경우 는 번째 개인에 대해 예상되는 포아송 수입니다 . 는 여분의 제로 확률입니다.yjλiiπ

Arnold와 동료들 (2008)은 0에서 허들 모델이 일반적인 클래스의 허들 모델의 특별한 경우라는 것을 알지만 Wikipedia ( Hall, 2004 ) 에 대한 참고 자료에서 팽창 된 모델은 상한이 될 수 있습니다. 나는 공식의 차이점을 이해하지 못하지만, 그것들은 상당히 비슷해 보입니다 (둘 다 매우 유사한 예, 보험 청구를 사용합니다). 다른 답변이 중요한 차이점을 설명하는 데 도움이 되길 바랍니다.이 답변이 그에 대한 단계를 설정하는 데 도움이되기를 바랍니다.

위키 백과 참조 :

  1. Lambert, D. (1992). 제조 결함에 적용 할 수있는 제로 팽창 된 포아송 회귀. 기술 측정, 34 (1), 1–14.
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.