부풀려진 분포가 없는데 실제로 무엇입니까?


15

제로 팽창 분포를 이해하기 위해 고심하고 있습니다. 그들은 무엇인가? 점은 무엇인가?

0이 많은 데이터가있는 경우 로지스틱 회귀에 적합하고 먼저 0의 확률을 계산 한 다음 모든 0을 제거한 다음 선택한 분포 (예 : 포아송)를 사용하여 정기적 회귀에 적합합니다.

그런 다음 누군가 나에게 "이봐, 제로 팽창 분포를 사용하십시오."라고 말했지만 그것을 찾으면 위에서 제안한 것과 다르게 행동하지 않는 것 같습니다. 정규 매개 변수 가 있고 확률 0을 모델링하는 다른 매개 변수 가 있습니까? 그것은 동시에 두 가지를 모두하지 않습니다?pμp


3
왜 0을 모두 제거합니까? 함께 할 수 있습니다. 먼저 0과 1의 확률을 계산하고 0 팽창 모델 (분포) 인 Poisson 분포의 가중치로 사용하십시오. 이것을 읽으십시오, 그것은 매우 분명합니다 en.wikipedia.org/wiki/Zero-inflated_model
Deep North

답변:


13

로지스틱 회귀 분석 적합 먼저 0의 확률을 계산 한 다음 모든 0을 제거하고 선택한 분포를 사용하여 정규 회귀 분석을 적합 화합니다 (예 : 포아송)

당신 말이 맞아요 이것은 제로 팽창 모델에 적합하게하는 한 가지 방법입니다 (또는 Achim Zeileis가 주석에서 지적한 바와 같이, 이것은 제로 팽창 모델의 특별한 경우로 볼 수있는 "허들 모델"입니다).

설명 된 절차와 "올인원"영 팽창 모델의 차이점은 오류 전파입니다. 통계의 다른 모든 2 단계 절차와 마찬가지로 2 단계에서 예측의 전반적인 불확실성은 예측이 0이어야하는지 여부에 대한 불확실성을 고려하지 않습니다.

때때로 이것은 필요한 악입니다. 다행히도이 경우에는 필요하지 않습니다. R에서는 pscl::hurdle()또는 을 사용할 수 있습니다 fitdistrplus::fitdist().


"2 단계에서 예측의 전반적인 불확실성은 예측이 0이어야하는지 아닌지에 대한 불확실성을 고려하지 않을 것"이라고 설명 할 수 있습니까? Zip Poisson을 수행하면 첫 번째 부분의 확률이 Poisson 모형의 우도 함수에 여러 배가되므로 2 단계는 0 또는 1의 불확실성을 고려합니다.
Deep North

1
@DeepNorth "0 또는 1의 불확실성"에 의해 과 같은 의미 이면, 그 진술 자체는 추정치입니다. 추정치이므로 주변에 어느 정도의 불확실성이 있습니다. 그럴듯한 가치의 범위는 무엇입니까? 이 정확 하다고 얼마나 확신 합니까? 이것이 단순한 2 단계 절차에서 전파되지 않는 불확실성입니다. 0.51P(Y=1|X=x)=0.510.51
shadowtalker

3
@ssdecontrol 일반적으로 이것은 0 팽창 모델이 아니라 장애물 모델 (예 :)이라고합니다 pscl::hurdle(). 그리고 적절한 적합을 얻으려면 0이없는 데이터에 사용 된 분포는 0으로 잘 려야합니다 (또는 처음에는 0이되지 않아야 함). 자세한 내용은 내 답변을 참조하십시오.
Achim Zeileis

9

설명하는 기본 아이디어는 유효한 접근 방식이며 종종 0 팽창 모델이 아닌 허들 모델 (또는 두 부분 모델)이라고 합니다 .

그러나 0이 아닌 데이터 모델은 0을 제거해야합니다. Poisson 모형이 0이없는 데이터에 적합하면 Poisson 분포는 항상 양의 확률이 0이므로 거의 확실하게 적합하지 않습니다. 자연 대안은 카운트 데이터에 대한 회귀를 방해하는 고전적인 접근법 인 제로 절단 포아송 분포를 사용하는 것입니다.

제로 팽창 모델과 허들 모델의 주요 차이점은 회귀의 이진 부분에서 어떤 확률이 모델링되는지입니다. 허들 모델의 경우 단순히 0 대 0이 아닌 확률입니다. 제로 팽창 모델에서는 초과 제로 를 가질 확률 , 즉 비 팽창 분포 (예를 들어, 포아송)에 의해 유발되지 않는 제로의 확률입니다.

R의 카운트 데이터에 대한 허들 및 제로 인플레이션 모델에 대한 설명은 JSS로 출판 된 원고를 참조하고 pscl패키지에 비 네트로도 제공 하십시오.


7

ssdecontrol이 말한 것은 매우 정확합니다. 그러나 나는 토론에 몇 센트를 더하고 싶습니다.

방금 YouTube에서 Richard McElreath의 카운트 데이터에 대한 Zero Inflated 모델에 대한 강의 를 보았습니다 .

특히 포아송 분포에서 관측 된 0이 발생할 확률이 100 %가 아니라고 생각할 경우 순수 포아송 모형의 비율을 설명하는 변수를 제어하면서 p를 추정하는 것이 합리적입니다.

다단계 모델로 팽창 분포 0 개

모형의 모수를 고려할 때도 의미가 있습니다. p와 포아송 모형의 비율, p는 두 가지 변수로 계산되기 때문에 카운트가 0 인 경우와 계수가 다른 경우 제로.

이미지 출처 : 통계적 재검토-Richard McElreath의 R과 Stan의 예제가있는 베이지안 코스

편집 : 오타


학습 자료에 대한 언급은 높이 평가됩니다 ... 그러나 이것이 당면한 질문에 어떻게 대답합니까? 이것은 답변으로 게시 된 코멘트처럼 보입니다 ...
RTbecard
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.