로지스틱 회귀 분석에서 생략 된 변수 바이어스와 일반 최소 제곱 회귀 분석에서 생략 된 변수 바이어스

로지스틱 및 선형 회귀 분석에서 생략 된 변수 바이어스에 대한 질문이 있습니다.

선형 회귀 모델에서 일부 변수를 생략했다고 가정 해보십시오. 생략 된 변수는 모델에 포함 된 변수와 관련이없는 것으로 가정하십시오. 생략 된 변수는 내 모델의 계수를 바이어스하지 않습니다.

그러나 로지스틱 회귀 분석에서 나는 이것이 사실이 아니라는 것을 알게되었습니다. 생략 된 변수가 포함 된 변수와 상관되지 않더라도 생략 된 변수는 포함 된 변수에 대한 계수를 바이어스합니다. 이 주제에 관한 논문을 찾았지만 머리 나 꼬리를 만들 수는 없습니다.

여기 종이 와 파워 포인트 슬라이드가 있습니다.

분명히 바이어스는 항상 0을 향합니다. 아무도 이것이 어떻게 작동하는지 설명 할 수 있습니까?

— 혼란스러운 계량 경제학
소스

로지스틱 회귀 모델이 기본 "잠복 변수"선형 회귀 모델에서 어떻게 나타나는지 알고 있습니까?

— Alecos Papadopoulos

@AlecosPapadopoulos 나는 하나가 아닙니다. 접시는 무엇입니까?

— Alexis

이것에 대해 논의하는 다른 기사가 있지만, 당신이 연결 한 기사는 내가 아는 가장 쉬운 것입니다. 그래서 나는 그것을 향상시킬 수 없다고 생각합니다.

— Maarten Buis

친애하는 파파도풀로스 (Papadopoulos) : 나는 잠복적인 아이디어에 대해 읽었습니다. 왜 물어?

— ConfusedEconometricsUndergrad

@ Alexis 예를 들어 stats.stackexchange.com/questions/80611/… 및 Wikipedia 기사 en.wikipedia.org/wiki/…를 참조하십시오 . 이 접근법은 또한 확률 수준에서 얻을 모델을 결정하는 기본 모델의 오차 항에 대해 가정한다는 것을 명확하게합니다. 또 다른 예를 들어, 기본 오류가 균일하다고 가정하면 선형 확률 모델을 얻습니다. stats.stackexchange.com/questions/81789

— Alecos Papadopoulos

"프로 빗 (probit)"모델을 조사하면 "감쇠 편향 (attenuation bias)"의 경우가 더 명확하게 제시 될 수 있지만 결과는 로지스틱 회귀에도 적용됩니다.

조건부 확률 모델 (물류 (로짓), "프로 빗"및 "선형 확률"모델) 아래에서 잠재 (관찰 할 수 없는) 선형 회귀 모델을 가정 할 수 있습니다 .

y^{*} = X β + u

$y^* = X\beta + u$

여기서 는 관측 할 수없는 연속 변수입니다 (그리고 는 회귀 행렬). 오차 항은 회귀 변수와 독립적 이며 밀도가 0 인 대칭 분포를 따르는 것으로 가정 하고 표준 정규 분포 입니다. $y^*$ $X$ $F_U(u)= \Phi(u)$

우리가 관찰 한 것, 즉 이진 변수 는 관찰 할 수없는 의 지표 함수 라고 가정합니다 . $y$ $y^*$

y = 1 if y^{*} > 0, y = 0 if y^{*} \leq 0

$y = 1 \;\;\text{if} \;\;y^*>0,\qquad y = 0 \;\;\text{if}\;\; y^*\le 0$

그런 다음 " 가 값을 취할 확률은 입니까? $y$ $1$ 회귀자가 주어지면 얼마입니까?"(즉, 조건부 확률을보고 있습니다). 이것은

P (y = 1 ∣ X) = P (y^{*} > 0 ∣ X) = P (X β + u > 0 ∣ X) = P (u > - X β ∣ X) = 1 - Φ (- Χ β) = Φ (X β)

$P(y =1\mid X ) = P(y^*>0\mid X) = P(X\beta + u>0\mid X) = P(u> - X\beta\mid X) \\= 1- \Phi (-Χ\beta) = \Phi (X\beta)$

표준 누적 분포 함수의 "반사"특성으로 인한 마지막 동등성. 밀도 함수의 대칭은 0입니다. 우리가 가정하고 있지만 참고 것을 독립적 인 에 컨디셔닝 양의 치료하기 위해 필요한 $u$ $X$ $X$ 비 등을 랜덤. $X\beta$

라고 가정 하면 이론적 모델을 얻습니다. $X\beta = b_0+b_1X_1 + b_2X_2$

\begin{matrix} (1) & P (y = 1 ∣ X) = Φ (b_{0} + b_{1} X_{1} + b_{2} X_{2}) \end{matrix}

$P(y =1\mid X ) = \Phi (b_0+b_1X_1 + b_2X_2) \tag{1}$

이제 가 과 독립적이며 근본적인 회귀 사양에서 잘못 배제되었습니다. 그래서 우리는 $X_2$ $X_1$

것으로 가정 상기 또한 정상 랜덤 변수 . 그러나 이것은

y^{*} = b_{0} + b_{1} X_{1} + ϵ

$y^* = b_0+b_1X_1 + \epsilon$

X_{2}

$X_2$

X_{2} \sim N (μ_{2}, σ_{2}^{2})

$X_2 \sim N(\mu_2,\sigma_2^2)$

ϵ = u + b_{2} X_{2} \sim N (b_{2} μ_{2}, 1 + b_{2}^{2} σ_{2}^{2})

$\epsilon = u + b_2X_2 \sim N(b_2\mu_2, 1+b_2^2\sigma_2^2)$

정규 분포 (및 독립 가정)가 추가됨에 따라 폐쇄 됨. 이전과 동일한 논리를 적용하면

P (y = 1 ∣ X_{1}) = P (y^{*} > 0 ∣ X_{1}) = P (b_{0} + b_{1} X_{1} + ϵ > 0 ∣ X_{1}) = P (ϵ > - b_{0} - b_{1} X_{1} ∣ X_{1})

$P(y =1\mid X_1 ) = P(y^*>0\mid X_1) = P(b_0+b_1X_1 + \epsilon>0\mid X_1) = P(\epsilon> - b_0-b_1X_1\mid X_1)$

표준화 $\epsilon$ variable we have

P (y = 1 ∣ X_{1}) = 1 - P (\frac{ϵ - b_{2} μ_{2}}{\sqrt{1 + b_{2}^{2} σ_{2}^{2}}} \leq - \frac{(b_{0} + b_{2} μ_{2})}{\sqrt{1 + b_{2}^{2} σ_{2}^{2}}} - \frac{b_{1}}{\sqrt{1 + b_{2}^{2} σ_{2}^{2}}} X_{1} ∣ X_{1})

$P(y =1\mid X_1 )= 1- P\left(\frac{\epsilon-b_2\mu_2}{\sqrt {1+b_2^2\sigma_2^2}}\leq - \frac {(b_0 + b_2\mu_2)}{\sqrt {1+b_2^2\sigma_2^2}}- \frac {b_1}{\sqrt {1+b_2^2\sigma_2^2}}X_1\mid X_1\right)$

\begin{matrix} (2) & \Rightarrow P (y = 1 ∣ X_{1}) = Φ (\frac{(b_{0} + b_{2} μ_{2})}{\sqrt{1 + b_{2}^{2} σ_{2}^{2}}} + \frac{b_{1}}{\sqrt{1 + b_{2}^{2} σ_{2}^{2}}} X_{1}) \end{matrix}

$\Rightarrow P(y =1\mid X_1) = \Phi\left(\frac {(b_0 + b_2\mu_2)}{\sqrt {1+b_2^2\sigma_2^2}}+ \frac {b_1}{\sqrt {1+b_2^2\sigma_2^2}}X_1\right) \tag{2}$

and one can compare models $(1)$ and $(2)$ .

The above theoretical expression, tells us where our maximum likelihood estimator of $b_1$ is going to converge, since it remains a consistent estimator, in the sense that it will converge to the theoretical quantity that really exists in the model (and of course, not in the sense that it will find the "truth" in any case):

{\hat{b}}_{1} \overset{p}{\to} \frac{b_{1}}{\sqrt{1 + b_{2}^{2} σ_{2}^{2}}} ⟹ | {\hat{b}}_{1} | < | b_{1} |

$\hat b_1 \xrightarrow{p} \frac {b_1}{\sqrt {1+b_2^2\sigma_2^2}} \implies |\hat b_1|< |b_1|$

which is the "bias towards zero" result.

We used the probit model, and not the logit (logistic regression), because only under normality can we derive the distribution of $\epsilon$ . The logistic distribution is not closed under addition. This means that if we omit a relevant variable in logistic regression, we also create distributional misspecification, because the error term (that now includes the omitted variable) no longer follows a logistic distribution. But this does not change the bias result (see footnote 6 in the paper linked to by the OP).

— Alecos Papadopoulos
소스