"프로 빗 (probit)"모델을 조사하면 "감쇠 편향 (attenuation bias)"의 경우가 더 명확하게 제시 될 수 있지만 결과는 로지스틱 회귀에도 적용됩니다.
조건부 확률 모델 (물류 (로짓), "프로 빗"및 "선형 확률"모델) 아래에서 잠재 (관찰 할 수 없는) 선형 회귀 모델을 가정 할 수 있습니다 .
y∗=Xβ+u
여기서 는 관측 할 수없는 연속 변수입니다 (그리고 X 는 회귀 행렬). 오차 항은 회귀 변수와 독립적 이며 밀도가 0 인 대칭 분포를 따르는 것으로 가정 하고 표준 정규 분포 F U ( u ) = Φ ( u ) 입니다.y∗XFU(u)=Φ(u)
우리가 관찰 한 것, 즉 이진 변수 는 관찰 할 수없는 y * 의 지표 함수 라고 가정합니다 .yy∗
y=1ify∗>0,y=0ify∗≤0
그런 다음 " 가 값을 취할 확률은 얼마 입니까? 1y1 회귀자가 주어지면 얼마입니까?"(즉, 조건부 확률을보고 있습니다). 이것은
P(y=1∣X)=P(y∗>0∣X)=P(Xβ+u>0∣X)=P(u>−Xβ∣X)=1−Φ(−Xβ)=Φ(Xβ)
표준 누적 분포 함수의 "반사"특성으로 인한 마지막 동등성. 밀도 함수의 대칭은 0입니다. 우리가 가정하고 있지만 참고 것을 독립적 인 X 에 컨디셔닝 X는 양의 치료하기 위해 필요한 X를uXX 비 등을 랜덤.Xβ
라고 가정 하면 이론적 모델을 얻습니다.Xβ=b0+b1X1+b2X2
P(y=1∣X)=Φ(b0+b1X1+b2X2)(1)
이제 가 X 1 과 독립적이며 근본적인 회귀 사양에서 잘못 배제되었습니다. 그래서 우리는X2X1
것으로 가정 상기 X 2는 또한 정상 랜덤 변수 X 2 ~ N을 ( μ 2 , σ 2 2 ) . 그러나 이것은
y∗=b0+b1X1+ϵ
X2X2∼N(μ2,σ22)
ϵ=u+b2X2∼N(b2μ2,1+b22σ22)
정규 분포 (및 독립 가정)가 추가됨에 따라 폐쇄 됨. 이전과 동일한 논리를 적용하면
P(y=1∣X1)=P(y∗>0∣X1)=P(b0+b1X1+ϵ>0∣X1)=P(ϵ>−b0−b1X1∣X1)
ϵ 표준화ϵ variable we have
P(y=1∣X1)=1−P⎛⎝⎜ϵ−b2μ21+b22σ22−−−−−−−√≤−(b0+b2μ2)1+b22σ22−−−−−−−√−b11+b22σ22−−−−−−−√X1∣X1⎞⎠⎟
⇒P(y=1∣X1)=Φ⎛⎝⎜(b0+b2μ2)1+b22σ22−−−−−−−√+b11+b22σ22−−−−−−−√X1⎞⎠⎟(2)
and one can compare models (1) and (2).
The above theoretical expression, tells us where our maximum likelihood estimator of b1 is going to converge, since it remains a consistent estimator, in the sense that it will converge to the theoretical quantity that really exists in the model (and of course, not in the sense that it will find the "truth" in any case):
b^1→pb11+b22σ22−−−−−−−√⟹|b^1|<|b1|
which is the "bias towards zero" result.
We used the probit model, and not the logit (logistic regression), because only under normality can we derive the distribution of ϵ. The logistic distribution is not closed under addition. This means that if we omit a relevant variable in logistic regression, we also create distributional misspecification, because the error term (that now includes the omitted variable) no longer follows a logistic distribution. But this does not change the bias result (see footnote 6 in the paper linked to by the OP).