종속 변수에 "컷오프"가있는 경우 모델링


12

내가 사용하는 용어가 틀린 경우 사전에 사과하십시오. 정정을 환영합니다. "잘라 내기"라고 부르는 내용이 다른 이름으로 바뀌면 알려 주시면 질문을 업데이트 할 수 있습니다.

내가 관심있는 상황은 이것입니다. 독립 변수 x 와 단일 종속 변수 y 있습니다. 모호하게 남겨 두 겠지만, 이러한 변수에 대해 좋은 회귀 모델을 얻는 것이 비교적 간단하다고 가정합니다.

xw=min(y,a)ayyw

사람들이 몇 년 동안 연금을 수령 할 것인지를 모형화하려고한다면 (비현실적인) 예가 될 수 있습니다. 이 경우 는 성별, 체중, 주당 운동 시간 등과 같은 관련 정보가 될 수 있습니다. '기본'변수 는 평균 수명입니다. 그러나 모델에서 액세스하고 예측하려고하는 변수는 여기서 r은 은퇴 연령입니다 (간단 성을 가정하면 고정되어 있음).xyw=min(0,yr)

회귀 모델링에서이를 처리하기위한 좋은 접근 방법이 있습니까?


1
확실하지 않지만 생존 분석의 변형을 통해 접근 할 수있는 것처럼 들립니다. 1) 검열과 관련이 있습니다. 2) 적어도 귀하의 예에서는 시간과 관련이 있습니다. 그러나 오른쪽 검열이 아닌 왼쪽 검열됩니다 (더 일반적). 나와 동의하면 생존 태그를 추가하고 다른 사람이 점프하는지 확인할 수 있습니다.
Peter Flom-Monica Monica 복원

4
@Peter 확실히 검열 된 것 같습니다. 의존성 변수를 부정함으로써 좌우 검열을 전환하기 때문에 검열이 어느 쪽에서 일어나는지는 거의 중요하지 않습니다.
whuber

@ whuber 당신이 옳다고 생각합니다. 그러나 말했듯이 검열은 쉽게 전환 할 수 있습니다.
Peter Flom-Monica Monica 복원

퇴직 사례는 카운트 데이터 모델을 요구하는 것으로 보입니다 (분석을 실행할 때 모든 사람이 사망 한 한, 일년 내내 반올림 할 의사가있는 경우). 잠재 변수 접근 방식은 시간이 음수가 될 수 없기 때문에 이것과 함께 늘어난 것처럼 보입니다.
Dimitriy V. Masterov

답변:


14

이러한 종류의 모델은 분야와 주제 영역에 따라 여러 이름으로 표시됩니다. 이에 대한 일반적인 이름은 검열 종속 변수, 잘린 종속 변수, 제한된 종속 변수, 생존 분석, 비트 및 검열 회귀입니다. 아마 몇 가지 다른 이름을 남기지 않을 것입니다.

가 관찰 되는 곳을 제안하는 설정을 "오른쪽 검열"이라고합니다 . 실제 선에서 너무 오른쪽에있는 값이 검열되기 때문입니다. 대신 검열 지점이 표시됩니다. .min{yi,a}yia

이와 같은 데이터를 처리하는 한 가지 방법은 잠재 변수를 사용하는 것입니다 (이것은 기본적으로 제안하는 것입니다). 진행하는 한 가지 방법은 다음과 같습니다.

yi=xiβ+εiwi=min{yi,a}εiN(0,σ2) iid

그런 다음 최대한의 가능성으로이를 분석 할 수 있습니다. 검열이 발생하는 관측치는 를 우도 함수에 기여하고 관측이 이루어지지 않은 관측은 를 우도 함수로 표준 법선의 CDF는 이고 표준 법선의 밀도는 입니다. 따라서 우도 함수는 다음과 같습니다.P{yi>a}=Φ(1σxiβa)1σϕ((yixiβ)/σ)Φϕ

L(β,σ)=i  censoredΦ(1σxiβa)i  censored1σϕ((yixiβ)/σ)

이것을 최대화 하여 및 를 추정합니다 . 일반적인 최대 우도 표준 오류로 표준 오류가 발생합니다.βσ

당신이 상상할 수 있듯이, 이것은 많은 사람들에게 하나의 접근법 일뿐입니다.


1
+1 ML 솔루션의 실제 예는 stats.stackexchange.com/questions/49443에 나타납니다 .
whuber

@ whuber 좋은 설명입니다.
Bill
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.