대신


14

나는 다음과 같은 이론적 경제 모델을 가지고 있습니다.

y=a+b1x1+b2x2+b3x3+u

따라서 이론에 따르면 y 를 추정하기위한 x1 , x2x3 요인이 있습니다.y

이제 실제 데이터가 있고 b1 , b2 , 을 추정해야합니다 b3. 문제는 실제 데이터 세트에 x1 대한 데이터 만 포함된다는 것입니다 x2. 대한 데이터가 없습니다 x3. 따라서 실제로 맞출 수있는 모델은 다음과 같습니다.

y=a+b1x1+b2x2+u
  • 이 모델을 추정해도 괜찮습니까?
  • 추정치가 없어 집니까?
  • b1 , 추정 b2하면 b3x3 항은 어디로 갑니까?
  • 오류 항 에 의해 설명 u됩니까?

그리고 우리는 x3x1 와 상관 관계가 없다고 가정합니다 x2.


데이터 세트, 종속 변수 및 독립 변수 x 1x 2에 대한 세부 정보를 제공 할 수 있습니까 ? yx1x2
Vara

특정 데이터 세트가없는 가상의 예라고 생각하십시오.
renathy

답변:


20

걱정해야 할 문제를 내 생성 이라고 합니다. 보다 구체적으로, 모집단에서 x 1 또는 x 2 와 상관 되는지 여부에 따라 다릅니다 . 그렇다면 관련 b j 가 바이어스됩니다. 이는 OLS 회귀 분석법으로 잔차 u i가 공변량 x j 와 상관되지 않도록하기 때문 입니다. 그러나 귀하의 잔류 일부 돌이킬 수없는 난수로 구성된다 ε 내가 , 그리고 관찰되지 (그러나 관련) 변수, X 3 , 규정에 의해하는x3x1x2bjuixjεix3 입니다 상관 관계 및 / 또는 X 2 . 다른 한편, 만약 모두 X 1X 2 와 상관되는 X 3 인구에, 그들의 B 들 (그들이 잘 물론, 다른 무언가에 의해 바이어스 될 수 있습니다) 이것에 의해 편향되지 않습니다. 계량 경제학자들이이 문제를 다루려고하는 한 가지 방법은 도구 변수 를 사용 하는 것입니다 . x1x2 x1x2x3b

더 명확하게하기 위해, 나는 x 2 와 상관이 없을 때 의 샘플링 분포 가 β 2 의 실제 값에 대해 편향되어 있지 않음 을 보여주는 빠른 시뮬레이션을 R에 작성했습니다 . 그러나 두 번째 실행에서 x 3x 1 과 관련이 없지만 x 2 와는 관련이 없습니다 . 우연히도, b 1 은 바이어스되지 않지만 b 2 바이어스됩니다. b2β2x3x3x1x2b1b2

library(MASS)                          # you'll need this package below
N     = 100                            # this is how much data we'll use
beta0 = -71                            # these are the true values of the
beta1 = .84                            # parameters
beta2 = .64
beta3 = .34

############## uncorrelated version

b0VectU = vector(length=10000)         # these will store the parameter
b1VectU = vector(length=10000)         # estimates
b2VectU = vector(length=10000)
set.seed(7508)                         # this makes the simulation reproducible

for(i in 1:10000){                     # we'll do this 10k times
  x1 = rnorm(N)
  x2 = rnorm(N)                        # these variables are uncorrelated
  x3 = rnorm(N)
  y  = beta0 + beta1*x1 + beta2*x2 + beta3*x3 + rnorm(100)
  mod = lm(y~x1+x2)                    # note all 3 variables are relevant
                                       # but the model omits x3
  b0VectU[i] = coef(mod)[1]            # here I'm storing the estimates
  b1VectU[i] = coef(mod)[2]
  b2VectU[i] = coef(mod)[3]
}
mean(b0VectU)  # [1] -71.00005         # all 3 of these are centered on the
mean(b1VectU)  # [1] 0.8399306         # the true values / are unbiased
mean(b2VectU)  # [1] 0.6398391         # e.g., .64 = .64

############## correlated version

r23 = .7                               # this will be the correlation in the
b0VectC = vector(length=10000)         # population between x2 & x3
b1VectC = vector(length=10000)
b2VectC = vector(length=10000)
set.seed(2734)

for(i in 1:10000){
  x1 = rnorm(N)
  X  = mvrnorm(N, mu=c(0,0), Sigma=rbind(c(  1, r23),
                                         c(r23,   1)))
  x2 = X[,1]
  x3 = X[,2]                           # x3 is correated w/ x2, but not x1
  y  = beta0 + beta1*x1 + beta2*x2 + beta3*x3 + rnorm(100)
                                       # once again, all 3 variables are relevant
  mod = lm(y~x1+x2)                    # but the model omits x3
  b0VectC[i] = coef(mod)[1]
  b1VectC[i] = coef(mod)[2]            # we store the estimates again
  b2VectC[i] = coef(mod)[3]
}
mean(b0VectC)  # [1] -70.99916         # the 1st 2 are unbiased
mean(b1VectC)  # [1] 0.8409656         # but the sampling dist of x2 is biased
mean(b2VectC)  # [1] 0.8784184         # .88 not equal to .64

x3이 $ x_1 및 x2와 상관 관계가 없다고 가정하면 어떻게됩니까? 그러면 y = a + b1x1 + b2x2 + u를 추정하면 어떻게됩니까?
renathy

1
은 어떤 식 으로든 잔차에 통합되지만모집단에서 상관 관계가없는경우 x 3 의 부재로 인해다른 b 는 바이어스되지 않지만 상관 관계가 없으면 상관 관계가 없습니다. b3x3bx3
복원

더 명확하게 말하면 : x 1 또는 x 2 와 상관되지 않으면 문제가 없습니다 . x3x1x2
gung-Monica Monica 복원


3

이것을 기하학적 용어로 생각해 봅시다. 공의 표면 인 "공"을 생각하십시오. 그것은로 설명 . 이제 x 2 , y 2 , z 2 에 대한 값이 있고 r 2의 측정 값이있는 경우 r2=ax2+by2+cz2+ϵx2y2z2r2 있으면 계수 "a", "b"및 "c"를 결정할 수 있습니다. (타원체라고 할 수 있지만 공이라고 부르는 것이 더 간단합니다.)

당신 만이있는 경우 , 및 Y 2 조건을 당신은 원을 만들 수 있습니다. 공의 표면을 정의하는 대신 채워진 원을 설명합니다. 대신 맞는 방정식은 r 2a x 2 + b y 2 + ϵx2y2r2ax2+by2+ϵ 입니다.

모양에 관계없이 "공"을 원의 표현으로 투영합니다. 바느질 바늘과 같은 모양의 대각선 방향의 "공"일 수 있으므로 구성 요소는 두 축의 추정치를 완전히 손상시킵니다. 코인 축이 "x"와 "y"인 곳에서 거의 부서진 m & m처럼 보이는 공일 수 있으며 투사가 없습니다. " z 없이는 그것이 무엇인지 알 수 없습니다zz "정보 정보 .

마지막 단락은 "순수한 정보"사례에 대해 이야기하고 있었지만 소음을 설명하지 않았습니다. 실제 측정에는 노이즈가있는 신호가 있습니다. 축에 정렬 된 주변의 노이즈가 착용감에 훨씬 더 강한 영향을 미칩니다. 동일한 수의 샘플이 있지만 모수 추정값에 더 많은 불확실성이 있습니다. 이 간단한 선형 축 중심의 경우와 다른 방정식이면 " 배 모양 "이 될 수 있습니다 . 현재 방정식은 평면 모양이므로 바운드 (볼 표면) 대신 z- 데이터가지도 전체에 표시 될 수 있습니다. 투사는 심각한 문제가 될 수 있습니다.

모델링해도 괜찮습니까? 그것은 판단 요청입니다. 문제의 세부 사항을 이해하는 전문가가 그 대답을 할 수 있습니다. 그들이 문제에서 멀리 떨어져 있다면 누군가가 좋은 대답을 줄 수 있는지 모르겠습니다.

모수 추정치의 확실성 및 변환되는 모델의 특성을 포함하여 몇 가지 좋은 점을 잃습니다.

의 추정치는 엡실론 및 다른 모수 추정치에서 사라집니다. 기본 시스템에 따라 전체 방정식으로 계산됩니다.b3


1
I can't really follow your argument here, & I'm not sure if it's correct. E.g., the surface area of a sphere is 4πr2. Beyond that, I'm not sure how this relates to the question. The key issue is whether or not the omitted variable is correlated w/ variables that are in the model. I'm not sure how what you are saying addresses that issue. (For clarity, I demonstrate this with a simple R simulation.)
gung - Reinstate Monica

Gung. I gave a best-case answer sphere -> circle and showed that it changed the model in unexpected ways. I liked the technical sophistication of your answer, but am not convinced that the asker is able to use either of our answers. the f(x,y,z) is the equation for the surface of an ellipsoid in 3 dimensions, a sphere is one case of it. I am assuming that the "true model" is the surface of the sphere, but noise corrupted measurements are on the surface. Throwing out one dimension gives data that, at best, makes a filled circle instead of the surface of a sphere.
EngrStudent - Reinstate Monica

I am unable to follow your argument because I don't see anything that corresponds to a "filled in square."
whuber

0

The other answers, while not wrong, over complicate the issue a bit.

If x3 is truly uncorrelated with x1 and x2 (and the true relationship is as specified) then you can estimate your second equation without an issue. As you suggest, β3x3 will be absorbed by the (new) error term. The OLS estimates will be unbiased, as long as all the other OLS assumptions hold.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.