22

이 중 첫 번째 문장 위키 "설명 변수가 에러 항과 상관 될 때 경제학에서, 내 생성의 문제가 발생한다. 것이 페이지 청구항 1 "

내 질문은 어떻게 이런 일이 일어날 수 있습니까? 오류 항이 설계 행렬의 열 공간과 직교하도록 회귀 베타를 선택하지 않았습니까?

regression

9

회귀 베타는 잔차 가 설계 행렬의 열 공간과 직교하도록 선택 됩니다. 그리고 이것은 에러 항이 디자인 매트릭스의 열 공간과 직교하지 않으면 실제 베타에 대한 끔찍한 추정치를 줄 수 있습니다 ! (예 : 모델이 회귀로 계수를 일관되게 추정하는 데 필요한 가정을 충족시키지 못하는 경우).

— Matthew Gunn

3

오차 항의 직교성과 설계 행렬의 열 공간은 추정 방법의 특성 이 아니며 (예 : 보통 최소 제곱 회귀) 모형의 특성입니다 (예 : ).

y_{i} = a + b x_{i} + ϵ_{i}

$y_i = a + b x_i + \epsilon_i$

— Matthew Gunn

요청한 내용을 크게 변경 한 것으로 보이므로 수정 사항이 새로운 질문이어야한다고 생각합니다. 언제든지이 링크에 다시 연결할 수 있습니다. (나는 당신이 그것을 더 잘 표현할 필요가 있다고 생각한다-당신이 "무엇이 효과가 될 것인가"라고 쓸 때 나는 그 효과 에 대해 명확하지 않다 ?) 기존 항목을 편집하는 대신

— Silverfish

28

두 가지 유형의 "오류"용어를 혼동하고 있습니다. Wikipedia는 실제로 오류와 잔차 사이의 구별에 관한 기사를 가지고 있습니다.

OLS 회귀 분석 에서 회귀에 절편 항이 포함되어 있다고 가정 할 때 잔차 (오류 또는 교란 항 추정치) 은 실제로 예측 변수와 관련이없는 것으로 보장됩니다. $\hat \varepsilon$

그러나 "실제"오류 은 이들과 관련이있을 수 있으며 이것이 내 생성으로 간주됩니다. $\varepsilon$

일을 단순하게 유지하려면 회귀 모델을 고려하십시오 ( 값을 생성한다고 가정 한 이론적 모델 인 기본 " 데이터 생성 프로세스 "또는 "DGP"라고 볼 수 있음 ). $y$

y_{i} = β_{1} + β_{2} x_{i} + ε_{i}

$y_i = \beta_1 + \beta_2 x_i + \varepsilon_i$

원칙적으로 가 모델에서 과 상관 될 수 없는 이유는 없지만, 이런 방식으로 표준 OLS 가정을 위반하지 않는 것이 좋습니다. 예를 들어, 는 모델에서 생략 된 다른 변수에 의존 할 수 있으며, 이는 교란 항에 통합되어 있습니다 ( 은 이외의 모든 것에 에 영향을 미치는 모든 부분을 ). 이 생략 된 변수가 와 상관 관계가있는 경우 , 은 와 상관 관계가 있으며 우리는 내 생성 (특히 생략 된 변수 바이어스 )이 있습니다. $x$ $\varepsilon$ $y$ $\varepsilon$ $x$ $y$ $x$ $\varepsilon$ $x$

사용 가능한 데이터에서 회귀 모델을 추정하면

y_{i} = {\hat{β}}_{1} + {\hat{β}}_{2} x_{i} + {\hat{ε}}_{i}

$y_i = \hat \beta_1 + \hat \beta_2 x_i + \hat \varepsilon_i$

OLS 작동 방식 *으로 인해 잔차 은 와 상관이 없습니다 . 그러나 이것이 우리가 내 생성을 피한다는 의미는 아닙니다. 단지 과 사이의 상관 관계를 분석하여이를 감지 할 수 없다는 것을 의미합니다 . 그리고 OLS 가정이 위반되었으므로 더 이상 편견과 같은 훌륭한 속성을 보장하지 않으므로 OLS에 대해 많은 것을 즐깁니다. 우리의 추정치 가 바이어스됩니다. $\hat \varepsilon$ $x$ $\hat \varepsilon$ $x$ $\hat \beta_2$

$(*)$ 이 와 상관 관계가 없다는 사실 은 계수에 대한 최상의 추정치를 선택하는 데 사용하는 "정상 방정식"에서 즉시 따릅니다. $\hat \varepsilon$ $x$

행렬 설정에 익숙하지 않고 위의 예에서 사용 된 이변 량 모델을 고수하면 제곱 잔차의 합은 그리고이를 최소화 하는 최적의 및 를 찾으려면 먼저 첫 번째 정규 방정식을 찾습니다 추정 된 절편의 순서 조건 : $S(b_1, b_2) = \sum_{i=1}^n \varepsilon_i^2 = \sum_{i=1}^n (y_i-b_1 - b_2 x_i)^2$ $b_1 = \hat \beta_1$ $b_2 = \hat \beta_2$

\frac{\partial S}{\partial b_{1}} = \sum_{i = 1}^{n} - 2 (y_{i} - b_{1} - b_{2} x_{i}) = - 2 \sum_{i = 1}^{n} {\hat{ε}}_{i} = 0

$\frac{\partial S}{\partial b_1} = \sum_{i=1}^n -2(y_i-b_1 - b_2 x_i) = -2 \sum_{i=1}^n \hat \varepsilon_i = 0$

어떤 프로그램 사이의 공분산의 수식 때문에 잔차의 합 (따라서 평균)이 제로임을 어떤 변수 후가 감소 . 추정 경사에 대한 1 차 조건을 고려하면 이것이 0이라는 것을 알 수 있습니다. $\hat \varepsilon$ $x$ $\frac{1}{n-1} \sum_{i=1}^n x_i \hat \varepsilon_i$

\frac{\partial S}{\partial b_{2}} = \sum_{i = 1}^{n} - 2 x_{i} (y_{i} - b_{1} - b_{2} x_{i}) = - 2 \sum_{i = 1}^{n} x_{i} {\hat{ε}}_{i} = 0

$\frac{\partial S}{\partial b_2} = \sum_{i=1}^n -2 x_i (y_i-b_1 - b_2 x_i) = -2 \sum_{i=1}^n x_i \hat \varepsilon_i = 0$

행렬 작업에 익숙한 경우 를 정의하여이를 다중 회귀로 일반화 할 수 있습니다 . 최적의 에서 를 최소화하는 1 차 조건 은 다음과 같습니다. $S(b) = \varepsilon' \varepsilon = (y-Xb)'(y-Xb)$ $S(b)$ $b = \hat \beta$

\frac{d S}{d b} (\hat{β}) = \frac{d}{d b} (y^{'} y - b^{'} X^{'} y - y^{'} X b + b^{'} X^{'} X b) |_{b = \hat{β}} = - 2 X^{'} y + 2 X^{'} X \hat{β} = - 2 X^{'} (y - X \hat{β}) = - 2 X^{'} \hat{ε} = 0

$\frac{dS}{db}(\hat\beta) = \frac{d}{db}\bigg(y'y - b'X'y - y'Xb + b'X'Xb\bigg)\bigg|_{b=\hat\beta} = -2X'y + 2X'X\hat\beta = -2X'(y - X\hat\beta) = -2X'\hat \varepsilon = 0$

이는 각 행의 의미 , 따라서 각 열의 , 직교 . 그런 다음 설계 행렬 에 열이 1 개인 경우 (모델에 절편이있는 경우 발생) 이어야 잔차의 합이 0이고 평균이 0입니다 . 과 변수 사이의 공분산 은 다시 이며 모델에 포함 된 모든 변수 대해이 합을 알고 있습니다 때문에 0입니다. $X'$ $X$ $\hat \varepsilon$ $X$ $\sum_{i=1}^n \hat \varepsilon_i = 0$ $\hat \varepsilon$ $x$ $\frac{1}{n-1} \sum_{i=1}^n x_i \hat \varepsilon_i$ $x$ $\hat \varepsilon$ 설계 행렬의 모든 열에 직교합니다. 따라서 과 모든 예측 변수 사이에는 공분산이없고 상관 관계가 없습니다 . $\hat \varepsilon$ $x$

당신이 원하는 경우 것들을 더 기하학적보기를 , 우리의 욕망 최대한 가까이 거짓말 방식의 피타고라스의 종류 , 그리고 사실이 있음을 설계 행렬의 열 공간에 제약을 , 결정 합니 것을 되어야 수직 관측의 투영 그 열 공간 상. 따라서 잔차 의 벡터는 의 벡터를 포함하여 모든 열에 직교합니다. $\hat y$ $y$ $\hat y$ $X$ $\hat y$ $y$ $\hat \varepsilon = y - \hat y$ $X$ $\mathbf{1_n}$ 절편 항이 모형에 포함 된 경우 이전과 같이 이것은 잔차의 합이 0임을 암시하지만 의 다른 열과의 잔차 벡터의 직교성 이 각 예측 변수와 상관되지 않도록 보장합니다. $X$

Vectors in subject space of multiple regression

그러나 여기서 우리가 한 일은 진정한 오류 대해 아무 것도 말하지 않습니다 . 모델에 절편 항이 있다고 가정하면 잔차 은 회귀 계수 를 추정하기로 선택한 방식의 수학적 결과 로 와만 관련이 없습니다 . 우리가 선택한 는 예측 된 값 영향을 미치 므로 잔차 영향을 미칩니다 . OLS로 를 선택 하면 정규 방정식을 풀어야하며 추정 잔차 이 $\varepsilon$ $\hat \varepsilon$ $x$ $\hat \beta$ $\hat \beta$ $\hat y$ $\hat \varepsilon = y - \hat y$ $\hat \beta$ $\hat \varepsilon$ $x$ . 우리의 선택은 영향을 미치지 만 에는 영향을 미치지 않으므로 오류에 대해서는 아무런 조건도 부과하지 않습니다 . 생각하는 실수가 될 것 와 어떻게 든 "상속"을 가지고 그 uncorrelatedness를 것을 OLS 가정에서 와 상관해야한다 . 상관 관계는 일반 방정식에서 발생합니다. $\hat \beta$ $\hat y$ $\mathbb{E}(y)$ $\varepsilon = y - \mathbb{E}(y)$ $\hat \varepsilon$ $x$ $\varepsilon$ $x$

— 은어
소스

1

수행하여 평균 회귀 인구 데이터를 사용하고 계십니까? 아니면 정확히 무엇을 의미합니까?

y_{i} = β_{1} + β_{2} x_{i} + ε_{i}

$y_i = \beta_1 + \beta_2 x_i + \varepsilon_i$

— 북쪽의 denizen

@ user1559897 예, 일부 교과서에서는이를 "인구 회귀선"또는 PRL이라고합니다. 인구의 기본 이론 모델입니다. 일부 소스에서는이를 "데이터 생성 프로세스"라고 할 수도 있습니다. (나는 그것이 "인구에 대한 회귀"라고 말하는 것에 대해 약간 조심하는 경향이 있습니다 ... 당신이 유한 인구, 예를 들어 미국의 50 개 주가 있고 회귀를 수행한다면, 이것은 사실이 아닙니다. 실제로 소프트웨어의 일부 데이터에서 모집단을 실행하는 경우 "모자"를 사용하여 예상 회귀 버전에 대해 이야기하고 있습니다.

— Silverfish

나는 당신이 무엇을 말하는지 알 것 같습니다. 내가 당신을 올바르게 이해하면, 모델의 오류 항 은 이론적 생성 과정이 아니라 ols 회귀가 아니기 때문에 0이 아닌 기대를 가질 수 있습니다.

y_{i} = β_{1} + β_{2} x_{i} + ε_{i}

$y_i = \beta_1 + \beta_2 x_i + \varepsilon_i$

— 북쪽의 denizen

이것은 통계적 추론 관점에서 큰 대답입니다. 예측 정확도가 주요 관심사 인 경우 그 효과는 무엇이라고 생각하십니까? 게시물 편집을 참조하십시오.

— 북쪽의 denizen

16

간단한 예 :

하자 내가 방문에 구입 햄버거의 숫자 $x_{i,1}$ $i$
하자 내가 구입 만두의 숫자. $x_{i,2}$
버거의 가격 이라고합시다 $b_1$
하자 롤빵의 가격합니다. $b_2$
내 햄버거와 롤빵 구매의 독립은, 내가 임의의 양 보낼 수 있도록 여기서 스칼라이고 평균 제로 확률 변수입니다. 우리는 입니다. $a + \epsilon_i$ $a$ $\epsilon_i$ $\operatorname{E}[\epsilon_i | X] = 0$
하자 식료품 점에 여행에 내 지출합니다. $y_i$

데이터 생성 프로세스는 다음과 같습니다.

y_{i} = a + b_{1} x_{i, 1} + b_{2} x_{i, 2} + ϵ_{i}

$y_i = a + b_1x_{i,1} + b_2x_{i,2} + \epsilon_i$

우리가 회귀를 실행 한 경우, 우리는 추정치를 얻을 것 , 및 , 충분한 데이터와 함께, 그들은 수렴 할 , 및 는 각각. $\hat{a}$ $\hat{b}_1$ $\hat{b}_2$ $a$ $b_1$ $b_2$

(기술 노트 : 우리 는 식료품 점을 방문 할 때마다 구매하는 각 버거에 대해 정확히 하나의 롤빵을 구매하지 않기 때문에 약간의 무작위성이 필요합니다 . 이렇게하면 과 가 동일 선형이 됩니다.) $x_1$ $x_2$

생략 된 변수 바이어스의 예 :

이제 모델을 고려해 봅시다 :

y_{i} = a + b_{1} x_{i, 1} + u_{i}

$y_i = a + b_1x_{i,1} + u_i$

관찰한다는 . 따라서 $u_i = b_2x_{i,2} + \epsilon_i$

\begin{aligned} Cov (x_{1}, u) & = Cov (x_{1}, b_{2} x_{2} + ϵ) \\ = b_{2} Cov (x_{1}, x_{2}) + Cov (x_{1}, ϵ) \\ = b_{2} Cov (x_{1}, x_{2}) \end{aligned}

$\begin{align*} \operatorname{Cov}(x_{1}, u) &= \operatorname{Cov}(x_1,b_2x_2 + \epsilon )\\ &= b_2 \operatorname{Cov}(x_{1},x_2) + \operatorname{Cov}(x_{1},\epsilon) \\ &= b_2 \operatorname{Cov}(x_{1},x_2) \end{align*}$

이것이 0입니까? 거의 확실하지 않습니다! 햄버거 과 빵 의 구매 는 거의 확실하게 관련되어 있습니다! 따라서 와 은 서로 관련이 있습니다! $x_1$ $x_2$ $u$ $x_1$

회귀 분석을 실행하면 어떻게됩니까?

당신이 실행하려고하면 :

y_{i} = \hat{a} + {\hat{b}}_{1} x_{i, 1} + {\hat{u}}_{i}

$y_i = \hat{a} + \hat{b}_1 x_{i,1} + \hat{u}_i$

귀하의 추정 거의 확실의 가난한 추정 될 OLS 회귀 추정하기 때문에 그렇게 구성 될 와 샘플에 상관된다. 그러나 실제 는 모집단의 과 상관 관계가 있습니다 ! $\hat{b}_1$ $b_1$ $\hat{a}, \hat{b}, \hat{u}$ $\hat{u}$ $x_1$ $u$ $x_1$

이렇게하면 실제로 어떤 일이 일어날까요? 귀하의 평가 햄버거의 가격의 것 ALSO 빵의 가격 픽업. 1 달러 버거를 살 때마다 0.50 빵 을 사는 경향이 있다고 가정 해 봅시다 (항상 그런 것은 아님). 햄버거 가격의 추정치는 1.40 일 수 있습니다 . 버거 가격 추정치에서 버거 채널과 롤빵 채널을 선택하게됩니다. $\hat{b}_1$

— 매튜 건
소스

나는 당신의 버거 롤빵 예를 좋아합니다. 통계적 추론의 관점에서, 즉 버거가 가격에 미치는 영향을 유추하여 문제를 설명했습니다. 내가 관심있는 모든 것이 예측, 즉 테스트 데이터 세트에 대한 예측 MSE 인 경우 그 효과가 무엇인지 궁금해합니까? 직관은 그것이 좋지 않을 것이라는 것이지만 그것을 더 정확하게 만드는 이론이 있습니까? (이것은 더 많은 편견을 가지지 만 분산이 적으므로 전반적인 효과는 나에게 명백하지 않습니다.)

— 북쪽의 denizen

1

@ user1559897 그냥 다음, 지출을 예측 햄버거의 번호를 사용하여 지출 예측 및 추정에 관심 경우

주위로 $ 꽤 잘 1.40 힘 작동합니다. 충분한 데이터가 있다면 버거 와 빵 의 수를 사용하면 의심 할 여지없이 더 잘 작동 할 것입니다. 짧은 샘플에서

정규화 (LASSO)는 계수

또는

중 하나 를 0으로 보낼 수 있습니다 . 회귀 분석에서 수행하는 작업이 조건부 기대 함수를 추정하고 있음을 올바르게 인식하고 있다고 생각합니다. 내 요점은 그 기능이 인과 관계 효과를 포착하는 것이므로 추가 가정이 필요합니다.

{\hat{b}}_{1}

$\hat{b}_1$

L_{1}

$L_1$

b_{1}

$b_1$

b_{2}

$b_2$

— Matthew Gunn

3

키가 큰 동물의 무게에 대한 회귀를 작성한다고 가정합니다. 돌고래의 무게는 코끼리 나 뱀의 무게와 다르게 (다른 절차와 도구를 사용하여) 다르게 측정 될 것입니다. 이는 모델 오류 가 설명 변수와 같은 높이에 따라 달라짐을 의미합니다. 그들은 다양한 방법으로 의존 할 수 있습니다. 예를 들어 코끼리 무게를 약간 과대 평가하고 뱀 등을 약간 과소 평가하는 경향이 있습니다.

따라서 여기서는 오류 가 설명 변수와 상관 되는 상황으로 끝나기 쉽습니다 . 이제 이것을 무시하고 평상시처럼 회귀를 진행하면 회귀 잔차 가 설계 행렬과 상관 관계 가 없음을 알 수 있습니다. 의도적으로 회귀로 인해 잔차 가 상관되지 않기 때문 입니다. 또한, 참고 잔류가 있습니다 하지 오류 , 그들이있어 추정치를오류. 따라서 오류 자체가 독립 변수와 상관되어 있는지 여부에 관계없이 회귀 방정식 솔루션의 구성으로 오류 추정치 (잔여)가 상관되지 않습니다.

— 악사 칼
소스

회귀 오차 항이 설명 변수와 어떻게 연관 될 수 있습니까?

간단한 예 :

생략 된 변수 바이어스의 예 :

회귀 분석을 실행하면 어떻게됩니까?