TB, AIDS와 같은 치명적인 질병이 입원 비용에 얼마나 영향을 미치는지 추정하기 위해 모델을 실행하려고합니다. 나는 의존적 변수로 "입원 당 비용"을, 독립 변수로 다양한 개별 마커를 가지고 있으며, 거의 모두 성별, 세대주, 빈곤 상태 및 병이 있는지 여부에 대한 더미 (더하기 연령)와 같은 더미입니다. 그리고 연령 제곱)과 많은 상호 작용 용어.
예상되는 바와 같이, 제로에 쌓인 상당한 양의 데이터가 있습니다. 즉, 12 개월 기준 기간 동안 입원 비용이 없습니다. 이와 같은 데이터를 처리하는 가장 좋은 방법은 무엇입니까?
현재로서는 ln(1+cost)
모든 관측치를 포함하고 선형 모델을 실행하도록 비용을 변환하기로 결정했습니다 . 내가 올바른 길을 가고 있습니까?