여기에서 왜 감마 분포를 선택합니까?


14

내 과정의 연습 중 하나에서 Kaggle 의료 데이터 세트를 사용하고 있습니다.

운동은 말한다 :

개별 요금의 분포를 모형화하고 해당 분포에 대한 불확실성을 캡처하여 볼 수있는 값의 범위를 더 잘 포착 할 수 있기를 원합니다. 데이터로드 및 초기보기 수행 :

음모

위와 같이 여기에 기하 급수적으로 분포하는 분포가 있다고 의심 할 수 있습니다. ... 보험 청구 비용은 여러 모달 일 수 있습니다. 감마 분포가 적용될 수 있으며, 보험 청구가 아닌 청구 금액의 분포에 대해이를 테스트 할 수 있습니다.

나는 고개 "감마 분포를"와 "인코딩 시간이«알파»에 대한«베타»의 평균 도착 시간과 포아송 과정에서 발생하는 이벤트를 요구하는 연속 긍정적 전용, 단봉 분포를"발견

여기에 관련된 시간이 없습니다, 단지 관련이없는 청구, 보험에 관계없이.

왜 감마 분포를 선택합니까?

답변:


27

조건부 데이터 분포 (예 : 각 그룹의 분포 또는 각 예측 변수의 조합에 대한 예상 분포)에 대한 간단한 모수 적 모형을 고려할 때 양의 연속 분포를 다루는 경우 두 가지 일반적인 선택은 감마입니다.log-Normal . 분포 영역 (0보다 큰 실수)의 사양을 만족시키는 것 외에도, 이러한 분포는 계산이 편리하며 종종 기계적인 의미가 있습니다.

  • 로그 정규 분포는 정규 분포를 지수화하여 쉽게 도출 할 수 있습니다 ( 반면에 , 로그 변환 로그 정규 편차는 정규 편차를 제공합니다). 기계적인 관점에서, 로그-정규는 각 관측치 가 많은 수의 iid 랜덤 변수 의 곱을 반영 할 때 중앙 한계 정리를 통해 발생 합니다. 데이터를 로그 변환 한 후에는 다양한 계산 및 분석 도구 (예 : 정규성을 가정하거나 최소 제곱 법을 사용하는 도구)에 액세스 할 수 있습니다.
  • nλ사용할 수 있습니다; 또한 분석에 특히 편리한 형태를 가지고 있습니다.

예를 들어 분포 꼬리의 "무거움"과 같은 다른 이유 중 하나를 선택할 수있는 다른 이유 가 있습니다. 이는 극단적 인 사건의 빈도를 예측하는 데 중요 할 수 있습니다. 다른 긍정적이고 지속적인 분포가 많이 있지만 (예를 들어이 목록 참조 )보다 전문적인 응용 프로그램에서 사용되는 경향이 있습니다.

이러한 분포 중 거의 소수가 위의 한계 분포에서 볼 수있는 다중 양식을 캡처하지만 다중 양식은 관측 된 범주 형 예측 변수로 설명 된 범주로 그룹화되는 데이터로 설명 될 수 있습니다. 다중 양식을 설명하는 관측 가능한 예측 변수가없는 경우 (작고 불연속적인) 양의 연속 분포의 혼합을 기반으로 유한 혼합 모형 을 적합하게 선택할 수 있습니다 .


1
또한 감마 및 로그 정규 모델은 거의 항상 매우 유사한 결과를 제공합니다
carlo

2
나는 건강 서비스 연구에서 일합니다. 일반적으로 감마 또는 대수 정규 분포가 의료 지출 또는 청구 금액 모델에 적합한 선택임을 확인할 수 있습니다. 감마 분포는 이벤트 시간 모델에 사용할 수 있지만 여기에는 해당되지 않습니다.
Weiwen Ng

감사!! 이것은 매우 도움이되었습니다.
Vicki B
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.