대신

14

나는 다음과 같은 이론적 경제 모델을 가지고 있습니다.

y = a + b_{1} x_{1} + b_{2} x_{2} + b_{3} x_{3} + u

$y = a + b_1x_1 + b_2x_2 + b_3x_3 + u$

따라서 이론에 따르면 를 추정하기위한 $x_1$ , $x_2$ 및 $x_3$ 요인이 있습니다. $y$

이제 실제 데이터가 있고 $b_1$ , $b_2$ , 을 추정해야합니다 $b_3$ . 문제는 실제 데이터 세트에 $x_1$ 및 대한 데이터 만 포함된다는 것입니다 $x_2$ . 대한 데이터가 없습니다 $x_3$ . 따라서 실제로 맞출 수있는 모델은 다음과 같습니다.

y = a + b_{1} x_{1} + b_{2} x_{2} + u

$y = a + b_1x_1 + b_2x_2 + u$

이 모델을 추정해도 괜찮습니까?
추정치가 없어 집니까?
$b_1$ , 추정 $b_2$ 하면 $b_3x_3$ 항은 어디로 갑니까?
오류 항 에 의해 설명 $u$ 됩니까?

그리고 우리는 $x_3$ 이 $x_1$ 및 와 상관 관계가 없다고 가정합니다 $x_2$ .

regression multiple-regression endogeneity

— 르네 티
소스

데이터 세트, 종속 변수

및 독립 변수

및

대한 세부 정보를 제공 할 수 있습니까 ?

y

$y$

x_{1}

$x_1$

x_{2}

$x_2$

— Vara

특정 데이터 세트가없는 가상의 예라고 생각하십시오.

— renathy

20

걱정해야 할 문제를 내 생성 이라고 합니다. 보다 구체적으로, 모집단에서 이 또는 와 상관 되는지 여부에 따라 다릅니다 . 그렇다면 관련 가 바이어스됩니다. 이는 OLS 회귀 분석법으로 잔차 공변량 와 상관되지 않도록하기 때문 입니다. 그러나 귀하의 잔류 일부 돌이킬 수없는 난수로 구성된다 , 그리고 관찰되지 (그러나 관련) 변수, , 규정에 의해하는 $x_3$ $x_1$ $x_2$ $b_j$ $u_i$ $x_j$ $\varepsilon_i$ $x_3$ 입니다 상관 관계 및 / 또는 . 다른 한편, 만약 모두 및 와 상관되는 인구에, 그들의 들 (그들이 잘 물론, 다른 무언가에 의해 바이어스 될 수 있습니다) 이것에 의해 편향되지 않습니다. 계량 경제학자들이이 문제를 다루려고하는 한 가지 방법은 도구 변수 를 사용 하는 것입니다 . $x_1$ $x_2$ $x_1$ $x_2$ $x_3$ $b$

더 명확하게하기 위해, 나는 와 상관이 없을 때 의 샘플링 분포 가 의 실제 값에 대해 편향되어 있지 않음 을 보여주는 빠른 시뮬레이션을 R에 작성했습니다 . 그러나 두 번째 실행에서 은 과 관련이 없지만 와는 관련이 없습니다 . 우연히도, 은 바이어스되지 않지만 는 바이어스됩니다. $b_2$ $\beta_2$ $x_3$ $x_3$ $x_1$ $x_2$ $b_1$ $b_2$

library(MASS)                          # you'll need this package below
N     = 100                            # this is how much data we'll use
beta0 = -71                            # these are the true values of the
beta1 = .84                            # parameters
beta2 = .64
beta3 = .34

############## uncorrelated version

b0VectU = vector(length=10000)         # these will store the parameter
b1VectU = vector(length=10000)         # estimates
b2VectU = vector(length=10000)
set.seed(7508)                         # this makes the simulation reproducible

for(i in 1:10000){                     # we'll do this 10k times
  x1 = rnorm(N)
  x2 = rnorm(N)                        # these variables are uncorrelated
  x3 = rnorm(N)
  y  = beta0 + beta1*x1 + beta2*x2 + beta3*x3 + rnorm(100)
  mod = lm(y~x1+x2)                    # note all 3 variables are relevant
                                       # but the model omits x3
  b0VectU[i] = coef(mod)[1]            # here I'm storing the estimates
  b1VectU[i] = coef(mod)[2]
  b2VectU[i] = coef(mod)[3]
}
mean(b0VectU)  # [1] -71.00005         # all 3 of these are centered on the
mean(b1VectU)  # [1] 0.8399306         # the true values / are unbiased
mean(b2VectU)  # [1] 0.6398391         # e.g., .64 = .64

############## correlated version

r23 = .7                               # this will be the correlation in the
b0VectC = vector(length=10000)         # population between x2 & x3
b1VectC = vector(length=10000)
b2VectC = vector(length=10000)
set.seed(2734)

for(i in 1:10000){
  x1 = rnorm(N)
  X  = mvrnorm(N, mu=c(0,0), Sigma=rbind(c(  1, r23),
                                         c(r23,   1)))
  x2 = X[,1]
  x3 = X[,2]                           # x3 is correated w/ x2, but not x1
  y  = beta0 + beta1*x1 + beta2*x2 + beta3*x3 + rnorm(100)
                                       # once again, all 3 variables are relevant
  mod = lm(y~x1+x2)                    # but the model omits x3
  b0VectC[i] = coef(mod)[1]
  b1VectC[i] = coef(mod)[2]            # we store the estimates again
  b2VectC[i] = coef(mod)[3]
}
mean(b0VectC)  # [1] -70.99916         # the 1st 2 are unbiased
mean(b1VectC)  # [1] 0.8409656         # but the sampling dist of x2 is biased
mean(b2VectC)  # [1] 0.8784184         # .88 not equal to .64

— gung-복직 모니카
소스

x3이 $ x_1 및 x2와 상관 관계가 없다고 가정하면 어떻게됩니까? 그러면 y = a + b1x1 + b2x2 + u를 추정하면 어떻게됩니까?

— renathy

1

은 어떤 식 으로든 잔차에 통합되지만모집단에서 상관 관계가없는경우

의 부재로 인해다른

는 바이어스되지 않지만 상관 관계가 없으면 상관 관계가 없습니다.

b_{3} x_{3}

$b_3x_3$

b

$b$

x_{3}

$x_3$

— 복원

더 명확하게 말하면 :

이

또는

와 상관되지 않으면 문제가 없습니다 .

x_{3}

$x_3$

x_{1}

$x_1$

x_{2}

$x_2$

— gung-Monica Monica 복원

내 대답 에서이 문제의 반대 측면에 대해 논의합니다 . 다중 변수 회귀에 더 많은 변수를 추가하면 기존 변수의 계수가 변경됩니까?

— gung-복직 모니카

3

이것을 기하학적 용어로 생각해 봅시다. 공의 표면 인 "공"을 생각하십시오. 그것은로 설명 . 이제 , , 에 대한 값이 있고 측정 값이있는 경우 $r^2 = ax^2+by^2+cz^2 + \epsilon$ $x^2$ $y^2$ $z^2$ $r^2$ 있으면 계수 "a", "b"및 "c"를 결정할 수 있습니다. (타원체라고 할 수 있지만 공이라고 부르는 것이 더 간단합니다.)

당신 만이있는 경우 , 및 조건을 당신은 원을 만들 수 있습니다. 공의 표면을 정의하는 대신 채워진 원을 설명합니다. 대신 맞는 방정식은 $x^2$ $y^2$ $r^2 \le ax^2 + by^2 + \epsilon$ 입니다.

모양에 관계없이 "공"을 원의 표현으로 투영합니다. 바느질 바늘과 같은 모양의 대각선 방향의 "공"일 수 있으므로 구성 요소는 두 축의 추정치를 완전히 손상시킵니다. 코인 축이 "x"와 "y"인 곳에서 거의 부서진 m & m처럼 보이는 공일 수 있으며 투사가 없습니다. " 없이는 그것이 무엇인지 알 수 없습니다 $z$ $z$ "정보 정보 .

마지막 단락은 "순수한 정보"사례에 대해 이야기하고 있었지만 소음을 설명하지 않았습니다. 실제 측정에는 노이즈가있는 신호가 있습니다. 축에 정렬 된 주변의 노이즈가 착용감에 훨씬 더 강한 영향을 미칩니다. 동일한 수의 샘플이 있지만 모수 추정값에 더 많은 불확실성이 있습니다. 이 간단한 선형 축 중심의 경우와 다른 방정식이면 " 배 모양 "이 될 수 있습니다 . 현재 방정식은 평면 모양이므로 바운드 (볼 표면) 대신 z- 데이터가지도 전체에 표시 될 수 있습니다. 투사는 심각한 문제가 될 수 있습니다.

모델링해도 괜찮습니까? 그것은 판단 요청입니다. 문제의 세부 사항을 이해하는 전문가가 그 대답을 할 수 있습니다. 그들이 문제에서 멀리 떨어져 있다면 누군가가 좋은 대답을 줄 수 있는지 모르겠습니다.

모수 추정치의 확실성 및 변환되는 모델의 특성을 포함하여 몇 가지 좋은 점을 잃습니다.

의 추정치는 엡실론 및 다른 모수 추정치에서 사라집니다. 기본 시스템에 따라 전체 방정식으로 계산됩니다. $b_3$

— EngrStudent-복직 모니카
소스

1

I can't really follow your argument here, & I'm not sure if it's correct. E.g., the surface area of a sphere is

4 π r^{2}

$4\pi r^2$ . Beyond that, I'm not sure how this relates to the question. The key issue is whether or not the omitted variable is correlated w/ variables that are in the model. I'm not sure how what you are saying addresses that issue. (For clarity, I demonstrate this with a simple R simulation.)

— gung - Reinstate Monica

Gung. I gave a best-case answer sphere -> circle and showed that it changed the model in unexpected ways. I liked the technical sophistication of your answer, but am not convinced that the asker is able to use either of our answers. the

f (x, y, z)

$f(x,y,z)$ is the equation for the surface of an ellipsoid in 3 dimensions, a sphere is one case of it. I am assuming that the "true model" is the surface of the sphere, but noise corrupted measurements are on the surface. Throwing out one dimension gives data that, at best, makes a filled circle instead of the surface of a sphere.

— EngrStudent - Reinstate Monica

I am unable to follow your argument because I don't see anything that corresponds to a "filled in square."

— whuber

0

The other answers, while not wrong, over complicate the issue a bit.

If $x_3$ is truly uncorrelated with $x_1$ and $x_2$ (and the true relationship is as specified) then you can estimate your second equation without an issue. As you suggest, $\beta_3 x_3$ will be absorbed by the (new) error term. The OLS estimates will be unbiased, as long as all the other OLS assumptions hold.

— Daniel Ludwinski
소스