연속 데이터가 0으로 쌓인 GLM


11

TB, AIDS와 같은 치명적인 질병이 입원 비용에 얼마나 영향을 미치는지 추정하기 위해 모델을 실행하려고합니다. 나는 의존적 변수로 "입원 당 비용"을, 독립 변수로 다양한 개별 마커를 가지고 있으며, 거의 모두 성별, 세대주, 빈곤 상태 및 병이 있는지 여부에 대한 더미 (더하기 연령)와 같은 더미입니다. 그리고 연령 제곱)과 많은 상호 작용 용어.

예상되는 바와 같이, 제로에 쌓인 상당한 양의 데이터가 있습니다. 즉, 12 개월 기준 기간 동안 입원 비용이 없습니다. 이와 같은 데이터를 처리하는 가장 좋은 방법은 무엇입니까?

현재로서는 ln(1+cost)모든 관측치를 포함하고 선형 모델을 실행하도록 비용을 변환하기로 결정했습니다 . 내가 올바른 길을 가고 있습니까?


1
당신의 응답은 실제로 카운트입니까? 당신이 찾고있는 용어는 제로 인플레이션 입니다.
gung-Monica Monica 복원

2
영 분포가 0 인 연속 분포도 가질 수 있습니다. 예를 들어 제로 팽창 된 감마 모델이 있습니다.
Glen_b-복지 주 모니카

1
@ Glen_b, 그것이 내가 생각한 것입니다. 그래도 한 번도 해본 적이 없습니다. Frank Harrell의 OLR 제안은이 문제를 해결할 수있는 영리한 방법입니다.
gung-모니 티 복원

답변:


8

현장의 다른 곳에서 논의 된 바와 같이, 서수 회귀 (예 : 비례 확률, 비례 위험, 프로 빗)는 유연하고 강력한 접근 방식입니다. 극심한 덩어리를 포함하여 분포에서 불연속이 허용됩니다 . 단일 의 분포에 대해서는 아무것도 가정하지 않습니다 . 비 팽창 모델은 반모 수 모델보다 훨씬 더 많은 가정을합니다. 전체 사례 연구를 보려면 http://biostat.mc.vanderbilt.edu/CourseBios330 에서 제 과정 유인물 15 장을 참조하십시오 .YYX

연속 대한 서수 모델의 한 가지 큰 장점은 분석 전에 를 변환하는 방법을 알 필요가 없다는 것입니다.YY


8

0에서의 덩어리는 "제로 인플레이션"이라고합니다. 지금까지 가장 일반적인 사례는 카운트 모델로, 0으로 부풀린 Poisson 및 0으로 부풀려진 음 이항 회귀로 이어집니다. 그러나 실제 양의 값으로 영 인플레이션을 모델링하는 방법이 있습니다 (예 : 무 팽창 감마 모델).

이러한 방법에 대한 검토는 Min and Agresti, 2002, 비 음성 데이터 모델링 (0)으로 덩어리를 참조하십시오 .


1

제로 팽창 된 포아송 모델을 사용하는 제안은 흥미로운 시작입니다. 병 관련 비용이있을 확률과 병이있을 경우 비용이 발생하는 과정 을 공동으로 모델링하면 이점이 있습니다. 비용이 발생했을 때 조건에 따라 결과의 형태가 무엇인지에 대한 엄격한 구조를 부과한다는 한계가 있습니다 (예 : 특정 평균-분산 관계 및 양의 정수 결과 ... 후자는 일부 완화 될 수 있음) 모델링 목적).

입원 과정에서 조건부로 질병 관련 입원질병 관련 비용을 독립적 으로 치료하는 것이 괜찮다면 먼저 이진 과정을 모델링하여이를 확장 할 수 있습니다. 질병과 관련된 비용 이 발생 했습니까? 이것은 간단한 로지스틱 회귀 모델이며 위험 요인과 유병률을 평가할 수 있습니다. 이를 감안할 때, 많은 모델링 기술을 사용하여 비용을 발생시킨 개인의 하위 집합으로 분석을 제한하고 실제 비용 프로세스를 모델링 할 수 있습니다. 포아송은 양호하고 준-포아송은 더 좋을 것입니다 (데이터에서 측정되지 않은 작은 공변량 원인과 모델 가정에서 벗어남을 설명 함). 그러나 지속적인 비용 프로세스를 모델링하는 데 한계가 있습니다.

공정에서 모수의 상관 관계를 절대적으로 모델링해야하는 경우 부트 스트랩 SE 추정값을 사용할 수 있습니다. 왜 이것이 유효하지 않은지 알 수 없지만 이것이 잘못되면 다른 사람들의 의견을 듣고 싶어 할 것입니다. 일반적으로, 나는 그것들이 두 가지 별도의 질문이며 유효한 추론을 갖도록 취급되어야한다고 생각합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.