회귀 오차 항이 설명 변수와 어떻게 연관 될 수 있습니까?


22

이 중 첫 번째 문장 위키 "설명 변수가 에러 항과 상관 될 때 경제학에서, 내 생성의 문제가 발생한다. 것이 페이지 청구항 1 "

내 질문은 어떻게 이런 일이 일어날 수 있습니까? 오류 항이 설계 행렬의 열 공간과 직교하도록 회귀 베타를 선택하지 않았습니까?


9
회귀 베타는 잔차 가 설계 행렬의 열 공간과 직교하도록 선택 됩니다. 그리고 이것은 에러 항이 디자인 매트릭스의 열 공간과 직교하지 않으면 실제 베타에 대한 끔찍한 추정치를 줄 수 있습니다 ! (예 : 모델이 회귀로 계수를 일관되게 추정하는 데 필요한 가정을 충족시키지 못하는 경우).
Matthew Gunn

3
오차 항의 직교성과 설계 행렬의 열 공간은 추정 방법의 특성 이 아니며 (예 : 보통 최소 제곱 회귀) 모형의 특성입니다 (예 : ). yi=a+bxi+ϵi
Matthew Gunn

요청한 내용을 크게 변경 한 것으로 보이므로 수정 사항이 새로운 질문이어야한다고 생각합니다. 언제든지이 링크에 다시 연결할 수 있습니다. (나는 당신이 그것을 더 잘 표현할 필요가 있다고 생각한다-당신이 "무엇이 효과가 될 것인가"라고 쓸 때 나는 그 효과 에 대해 명확하지 않다 ?) 기존 항목을 편집하는 대신
Silverfish

답변:


28

두 가지 유형의 "오류"용어를 혼동하고 있습니다. Wikipedia는 실제로 오류와 잔차 사이의 구별에 관한 기사를 가지고 있습니다.

OLS 회귀 분석 에서 회귀에 절편 항이 포함되어 있다고 가정 할 때 잔차 (오류 또는 교란 항 추정치) 은 실제로 예측 변수와 관련이없는 것으로 보장됩니다.ε^

그러나 "실제"오류 은 이들과 관련이있을 수 있으며 이것이 내 생성으로 간주됩니다.ε

일을 단순하게 유지하려면 회귀 모델을 고려하십시오 ( 값을 생성한다고 가정 한 이론적 모델 인 기본 " 데이터 생성 프로세스 "또는 "DGP"라고 볼 수 있음 ).y

yi=β1+β2xi+εi

원칙적으로 가 모델에서 과 상관 될 수 없는 이유는 없지만, 이런 방식으로 표준 OLS 가정을 위반하지 않는 것이 좋습니다. 예를 들어, 는 모델에서 생략 된 다른 변수에 의존 할 수 있으며, 이는 교란 항에 통합되어 있습니다 ( 은 이외의 모든 것에 에 영향을 미치는 모든 부분을 ). 이 생략 된 변수가 와 상관 관계가있는 경우 , 은 와 상관 관계가 있으며 우리는 내 생성 (특히 생략 된 변수 바이어스 )이 있습니다.ε y ε x y x ε xxεyεxyxεx

사용 가능한 데이터에서 회귀 모델을 추정하면

yi=β^1+β^2xi+ε^i

OLS 작동 방식 *으로 인해 잔차 은 와 상관이 없습니다 . 그러나 이것이 우리가 내 생성을 피한다는 의미는 아닙니다. 단지 과 사이의 상관 관계를 분석하여이를 감지 할 수 없다는 것을 의미합니다 . 그리고 OLS 가정이 위반되었으므로 더 이상 편견과 같은 훌륭한 속성을 보장하지 않으므로 OLS에 대해 많은 것을 즐깁니다. 우리의 추정치 가 바이어스됩니다. X ε X β 2ε^xε^xβ^2


ε X() 이 와 상관 관계가 없다는 사실 은 계수에 대한 최상의 추정치를 선택하는 데 사용하는 "정상 방정식"에서 즉시 따릅니다.ε^x

행렬 설정에 익숙하지 않고 위의 예에서 사용 된 이변 량 모델을 고수하면 제곱 잔차의 합은 그리고이를 최소화 하는 최적의 및 를 찾으려면 먼저 첫 번째 정규 방정식을 찾습니다 추정 된 절편의 순서 조건 :(B) 1 = β 1 B 2 = β (2)S(b1,b2)=i=1nεi2=i=1n(yib1b2xi)2b1=β^1b2=β^2

Sb1=i=1n2(yib1b2xi)=2i=1nε^i=0

어떤 프로그램 사이의 공분산의 수식 때문에 잔차의 합 (따라서 평균)이 제로임을 어떤 변수 후가 감소 . 추정 경사에 대한 1 차 조건을 고려하면 이것이 0이라는 것을 알 수 있습니다. X1ε^x1n1i=1nxiε^i

Sb2=i=1n2xi(yib1b2xi)=2i=1nxiε^i=0

행렬 작업에 익숙한 경우 를 정의하여이를 다중 회귀로 일반화 할 수 있습니다 . 최적의 에서 를 최소화하는 1 차 조건 은 다음과 같습니다.S(b)=εε=(yXb)(yXb)S(b)b=β^

dSdb(β^)=ddb(yybXyyXb+bXXb)|b=β^=2Xy+2XXβ^=2X(yXβ^)=2Xε^=0

이는 각 행의 의미 , 따라서 각 열의 , 직교 . 그런 다음 설계 행렬 에 열이 1 개인 경우 (모델에 절편이있는 경우 발생) 이어야 잔차의 합이 0이고 평균이 0입니다 . 과 변수 사이의 공분산 은 다시 이며 모델에 포함 된 모든 변수 대해이 합을 알고 있습니다 때문에 0입니다.XXε^Xi=1nε^i=0ε^x1n1i=1nxiε^ixε^설계 행렬의 모든 열에 직교합니다. 따라서 과 모든 예측 변수 사이에는 공분산이없고 상관 관계가 없습니다 .ε^x

당신이 원하는 경우 것들을 더 기하학적보기를 , 우리의 욕망 최대한 가까이 거짓말 방식의 피타고라스의 종류 , 그리고 사실이 있음을 설계 행렬의 열 공간에 제약을 , 결정 합니 것을 되어야 수직 관측의 투영 그 열 공간 상. 따라서 잔차 의 벡터는 의 벡터를 포함하여 모든 열에 직교합니다.y^y y^Xy^yε^=yy^X1n절편 항이 모형에 포함 된 경우 이전과 같이 이것은 잔차의 합이 0임을 암시하지만 의 다른 열과의 잔차 벡터의 직교성 이 각 예측 변수와 상관되지 않도록 보장합니다.X

Vectors in subject space of multiple regression

그러나 여기서 우리가 한 일은 진정한 오류 대해 아무 것도 말하지 않습니다 . 모델에 절편 항이 있다고 가정하면 잔차회귀 계수 를 추정하기로 선택한 방식의 수학적 결과 와만 관련이 없습니다 . 우리가 선택한 는 예측 된 값 영향을 미치 므로 잔차 영향을 미칩니다 . OLS로 를 선택 하면 정규 방정식을 풀어야하며 추정 잔차 이εε^xβ^β^y^ε^=yy^β^ε^x . 우리의 선택은 영향을 미치지 만 에는 영향을 미치지 않으므로 오류에 대해서는 아무런 조건도 부과하지 않습니다 . 생각하는 실수가 될 것 와 어떻게 든 "상속"을 가지고 그 uncorrelatedness를 것을 OLS 가정에서 와 상관해야한다 . 상관 관계는 일반 방정식에서 발생합니다.β^y^E(y)ε=yE(y)ε^xεx


1
수행하여 평균 회귀 인구 데이터를 사용하고 계십니까? 아니면 정확히 무엇을 의미합니까? yi=β1+β2xi+εi
북쪽의 denizen

@ user1559897 예, 일부 교과서에서는이를 "인구 회귀선"또는 PRL이라고합니다. 인구의 기본 이론 모델입니다. 일부 소스에서는이를 "데이터 생성 프로세스"라고 할 수도 있습니다. (나는 그것이 "인구에 대한 회귀"라고 말하는 것에 대해 약간 조심하는 경향이 있습니다 ... 당신이 유한 인구, 예를 들어 미국의 50 개 주가 있고 회귀를 수행한다면, 이것은 사실이 아닙니다. 실제로 소프트웨어의 일부 데이터에서 모집단을 실행하는 경우 "모자"를 사용하여 예상 회귀 버전에 대해 이야기하고 있습니다.
Silverfish

나는 당신이 무엇을 말하는지 알 것 같습니다. 내가 당신을 올바르게 이해하면, 모델의 오류 항 은 이론적 생성 과정이 아니라 ols 회귀가 아니기 때문에 0이 아닌 기대를 가질 수 있습니다. yi=β1+β2xi+εi
북쪽의 denizen

이것은 통계적 추론 관점에서 큰 대답입니다. 예측 정확도가 주요 관심사 인 경우 그 효과는 무엇이라고 생각하십니까? 게시물 편집을 참조하십시오.
북쪽의 denizen

16

간단한 예 :

  • 하자 내가 방문에 구입 햄버거의 숫자 내가xi,1i
  • 하자 내가 구입 만두의 숫자.xi,2
  • 버거의 가격 이라고합시다b1
  • 하자 롤빵의 가격합니다.b2
  • 내 햄버거와 롤빵 구매의 독립은, 내가 임의의 양 보낼 수 있도록 +를 ε 내가 여기서 A는 스칼라이고 ε i가 평균 제로 확률 변수입니다. 우리는 E [ ϵ i | X ] = 0 입니다.a+ϵiaϵiE[ϵi|X]=0
  • 하자 식료품 점에 여행에 내 지출합니다.yi

데이터 생성 프로세스는 다음과 같습니다.

yi=a+b1xi,1+b2xi,2+ϵi

우리가 회귀를 실행 한 경우, 우리는 추정치를 얻을 것 , b를 1b를 2 , 충분한 데이터와 함께, 그들은 수렴 할 , b를 1B 2 는 각각.a^b^1b^2ab1b2

(기술 노트 : 우리 는 식료품 점을 방문 할 때마다 구매하는 각 버거에 대해 정확히 하나의 롤빵을 구매하지 않기 때문에 약간의 무작위성이 필요합니다 . 이렇게하면 x 2동일 선형이 됩니다.)x1x2

생략 된 변수 바이어스의 예 :

이제 모델을 고려해 봅시다 :

yi=a+b1xi,1+ui

관찰한다는 . 따라서 Cov ( x 1 , u )ui=b2xi,2+ϵi

Cov(x1,u)=Cov(x1,b2x2+ϵ)=b2Cov(x1,x2)+Cov(x1,ϵ)=b2Cov(x1,x2)

이것이 0입니까? 거의 확실하지 않습니다! 햄버거 과 빵 x 2 의 구매 는 거의 확실하게 관련되어 있습니다! 따라서 ux 1 은 서로 관련이 있습니다!x1x2ux1

회귀 분석을 실행하면 어떻게됩니까?

당신이 실행하려고하면 :

yi=a^+b^1xi,1+u^i

귀하의 추정 B 1은 거의 확실의 가난한 추정 될 B 1 OLS 회귀 추정하기 때문에 , B를 , u는 그렇게 구성 될 UX 1 샘플에 상관된다. 그러나 실제 u 는 모집단의 x 1 과 상관 관계가 있습니다 !b^1b1a^,b^,u^u^x1ux1

이렇게하면 실제로 어떤 일이 일어날까요? 귀하의 평가 B (1) 햄버거의 가격의 것 ALSO 빵의 가격 픽업. 1 달러 버거를 살 때마다 0.50 달러짜리 빵 을 사는 경향이 있다고 가정 해 봅시다 (항상 그런 것은 아님). 햄버거 가격의 추정치는 $ 1.40 일 수 있습니다 . 버거 가격 추정치에서 버거 채널과 롤빵 채널을 선택하게됩니다.b^1


나는 당신의 버거 롤빵 예를 좋아합니다. 통계적 추론의 관점에서, 즉 버거가 가격에 미치는 영향을 유추하여 문제를 설명했습니다. 내가 관심있는 모든 것이 예측, 즉 테스트 데이터 세트에 대한 예측 MSE 인 경우 그 효과가 무엇인지 궁금해합니까? 직관은 그것이 좋지 않을 것이라는 것이지만 그것을 더 정확하게 만드는 이론이 있습니까? (이것은 더 많은 편견을 가지지 만 분산이 적으므로 전반적인 효과는 나에게 명백하지 않습니다.)
북쪽의 denizen

1
@ user1559897 그냥 다음, 지출을 예측 햄버거의 번호를 사용하여 지출 예측 및 추정에 관심 경우 b를 1 주위로 $ 꽤 잘 1.40 힘 작동합니다. 충분한 데이터가 있다면 버거 빵 의 수를 사용하면 의심 할 여지없이 더 잘 작동 할 것입니다. 짧은 샘플에서 L 1 정규화 (LASSO)는 계수 b 1 또는 b 2 중 하나 를 0으로 보낼 수 있습니다 . 회귀 분석에서 수행하는 작업이 조건부 기대 함수를 추정하고 있음을 올바르게 인식하고 있다고 생각합니다. 내 요점은 그 기능이 인과 관계 효과를 포착하는 것이므로 추가 가정이 필요합니다. b^1L1b1b2
Matthew Gunn

3

키가 큰 동물의 무게에 대한 회귀를 작성한다고 가정합니다. 돌고래의 무게는 코끼리 나 뱀의 무게와 다르게 (다른 절차와 도구를 사용하여) 다르게 측정 될 것입니다. 이는 모델 오류 가 설명 변수와 같은 높이에 따라 달라짐을 의미합니다. 그들은 다양한 방법으로 의존 할 수 있습니다. 예를 들어 코끼리 무게를 약간 과대 평가하고 뱀 등을 약간 과소 평가하는 경향이 있습니다.

따라서 여기서는 오류 가 설명 변수와 상관 되는 상황으로 끝나기 쉽습니다 . 이제 이것을 무시하고 평상시처럼 회귀를 진행하면 회귀 잔차 가 설계 행렬과 상관 관계없음을 알 수 있습니다. 의도적으로 회귀로 인해 잔차 가 상관되지 않기 때문 입니다. 또한, 참고 잔류가 있습니다 하지 오류 , 그들이있어 추정치를오류. 따라서 오류 자체가 독립 변수와 상관되어 있는지 여부에 관계없이 회귀 방정식 솔루션의 구성으로 오류 추정치 (잔여)가 상관되지 않습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.