이 중 첫 번째 문장 위키 "설명 변수가 에러 항과 상관 될 때 경제학에서, 내 생성의 문제가 발생한다. 것이 페이지 청구항 1 "
내 질문은 어떻게 이런 일이 일어날 수 있습니까? 오류 항이 설계 행렬의 열 공간과 직교하도록 회귀 베타를 선택하지 않았습니까?
이 중 첫 번째 문장 위키 "설명 변수가 에러 항과 상관 될 때 경제학에서, 내 생성의 문제가 발생한다. 것이 페이지 청구항 1 "
내 질문은 어떻게 이런 일이 일어날 수 있습니까? 오류 항이 설계 행렬의 열 공간과 직교하도록 회귀 베타를 선택하지 않았습니까?
답변:
두 가지 유형의 "오류"용어를 혼동하고 있습니다. Wikipedia는 실제로 오류와 잔차 사이의 구별에 관한 기사를 가지고 있습니다.
OLS 회귀 분석 에서 회귀에 절편 항이 포함되어 있다고 가정 할 때 잔차 (오류 또는 교란 항 추정치) 은 실제로 예측 변수와 관련이없는 것으로 보장됩니다.
그러나 "실제"오류 은 이들과 관련이있을 수 있으며 이것이 내 생성으로 간주됩니다.
일을 단순하게 유지하려면 회귀 모델을 고려하십시오 ( 값을 생성한다고 가정 한 이론적 모델 인 기본 " 데이터 생성 프로세스 "또는 "DGP"라고 볼 수 있음 ).
원칙적으로 가 모델에서 과 상관 될 수 없는 이유는 없지만, 이런 방식으로 표준 OLS 가정을 위반하지 않는 것이 좋습니다. 예를 들어, 는 모델에서 생략 된 다른 변수에 의존 할 수 있으며, 이는 교란 항에 통합되어 있습니다 ( 은 이외의 모든 것에 에 영향을 미치는 모든 부분을 ). 이 생략 된 변수가 와 상관 관계가있는 경우 , 은 와 상관 관계가 있으며 우리는 내 생성 (특히 생략 된 변수 바이어스 )이 있습니다.ε y ε x y x ε x
사용 가능한 데이터에서 회귀 모델을 추정하면
OLS 작동 방식 *으로 인해 잔차 은 와 상관이 없습니다 . 그러나 이것이 우리가 내 생성을 피한다는 의미는 아닙니다. 단지 과 사이의 상관 관계를 분석하여이를 감지 할 수 없다는 것을 의미합니다 . 그리고 OLS 가정이 위반되었으므로 더 이상 편견과 같은 훌륭한 속성을 보장하지 않으므로 OLS에 대해 많은 것을 즐깁니다. 우리의 추정치 가 바이어스됩니다. X ε X β 2
ε X 이 와 상관 관계가 없다는 사실 은 계수에 대한 최상의 추정치를 선택하는 데 사용하는 "정상 방정식"에서 즉시 따릅니다.
행렬 설정에 익숙하지 않고 위의 예에서 사용 된 이변 량 모델을 고수하면 제곱 잔차의 합은 그리고이를 최소화 하는 최적의 및 를 찾으려면 먼저 첫 번째 정규 방정식을 찾습니다 추정 된 절편의 순서 조건 :(B) 1 = β 1 B 2 = β (2)
어떤 프로그램 사이의 공분산의 수식 때문에 잔차의 합 (따라서 평균)이 제로임을 어떤 변수 후가 감소 . 추정 경사에 대한 1 차 조건을 고려하면 이것이 0이라는 것을 알 수 있습니다. X1
행렬 작업에 익숙한 경우 를 정의하여이를 다중 회귀로 일반화 할 수 있습니다 . 최적의 에서 를 최소화하는 1 차 조건 은 다음과 같습니다.
이는 각 행의 의미 , 따라서 각 열의 , 직교 . 그런 다음 설계 행렬 에 열이 1 개인 경우 (모델에 절편이있는 경우 발생) 이어야 잔차의 합이 0이고 평균이 0입니다 . 과 변수 사이의 공분산 은 다시 이며 모델에 포함 된 모든 변수 대해이 합을 알고 있습니다 때문에 0입니다.설계 행렬의 모든 열에 직교합니다. 따라서 과 모든 예측 변수 사이에는 공분산이없고 상관 관계가 없습니다 .
당신이 원하는 경우 것들을 더 기하학적보기를 , 우리의 욕망 최대한 가까이 거짓말 방식의 피타고라스의 종류 , 그리고 사실이 있음을 설계 행렬의 열 공간에 제약을 , 결정 합니 것을 되어야 수직 관측의 투영 그 열 공간 상. 따라서 잔차 의 벡터는 의 벡터를 포함하여 모든 열에 직교합니다. 절편 항이 모형에 포함 된 경우 이전과 같이 이것은 잔차의 합이 0임을 암시하지만 의 다른 열과의 잔차 벡터의 직교성 이 각 예측 변수와 상관되지 않도록 보장합니다.
그러나 여기서 우리가 한 일은 진정한 오류 대해 아무 것도 말하지 않습니다 . 모델에 절편 항이 있다고 가정하면 잔차 은 회귀 계수 를 추정하기로 선택한 방식의 수학적 결과 로 와만 관련이 없습니다 . 우리가 선택한 는 예측 된 값 영향을 미치 므로 잔차 영향을 미칩니다 . OLS로 를 선택 하면 정규 방정식을 풀어야하며 추정 잔차 이 . 우리의 선택은 영향을 미치지 만 에는 영향을 미치지 않으므로 오류에 대해서는 아무런 조건도 부과하지 않습니다 . 생각하는 실수가 될 것 와 어떻게 든 "상속"을 가지고 그 uncorrelatedness를 것을 OLS 가정에서 와 상관해야한다 . 상관 관계는 일반 방정식에서 발생합니다.
데이터 생성 프로세스는 다음과 같습니다.
우리가 회귀를 실행 한 경우, 우리는 추정치를 얻을 것 를 , b를 1 및 b를 2 , 충분한 데이터와 함께, 그들은 수렴 할 , b를 1 및 B 2 는 각각.
(기술 노트 : 우리 는 식료품 점을 방문 할 때마다 구매하는 각 버거에 대해 정확히 하나의 롤빵을 구매하지 않기 때문에 약간의 무작위성이 필요합니다 . 이렇게하면 과 x 2 가 동일 선형이 됩니다.)
이제 모델을 고려해 봅시다 :
관찰한다는 . 따라서 Cov ( x 1 , u )
이것이 0입니까? 거의 확실하지 않습니다! 햄버거 과 빵 x 2 의 구매 는 거의 확실하게 관련되어 있습니다! 따라서 u 와 x 1 은 서로 관련이 있습니다!
당신이 실행하려고하면 :
귀하의 추정 B 1은 거의 확실의 가난한 추정 될 B 1 OLS 회귀 추정하기 때문에 , B를 , u는 그렇게 구성 될 U 와 X 1 샘플에 상관된다. 그러나 실제 u 는 모집단의 x 1 과 상관 관계가 있습니다 !
이렇게하면 실제로 어떤 일이 일어날까요? 귀하의 평가 B (1) 햄버거의 가격의 것 ALSO 빵의 가격 픽업. 1 달러 버거를 살 때마다 0.50 달러짜리 빵 을 사는 경향이 있다고 가정 해 봅시다 (항상 그런 것은 아님). 햄버거 가격의 추정치는 $ 1.40 일 수 있습니다 . 버거 가격 추정치에서 버거 채널과 롤빵 채널을 선택하게됩니다.
키가 큰 동물의 무게에 대한 회귀를 작성한다고 가정합니다. 돌고래의 무게는 코끼리 나 뱀의 무게와 다르게 (다른 절차와 도구를 사용하여) 다르게 측정 될 것입니다. 이는 모델 오류 가 설명 변수와 같은 높이에 따라 달라짐을 의미합니다. 그들은 다양한 방법으로 의존 할 수 있습니다. 예를 들어 코끼리 무게를 약간 과대 평가하고 뱀 등을 약간 과소 평가하는 경향이 있습니다.
따라서 여기서는 오류 가 설명 변수와 상관 되는 상황으로 끝나기 쉽습니다 . 이제 이것을 무시하고 평상시처럼 회귀를 진행하면 회귀 잔차 가 설계 행렬과 상관 관계 가 없음을 알 수 있습니다. 의도적으로 회귀로 인해 잔차 가 상관되지 않기 때문 입니다. 또한, 참고 잔류가 있습니다 하지 오류 , 그들이있어 추정치를오류. 따라서 오류 자체가 독립 변수와 상관되어 있는지 여부에 관계없이 회귀 방정식 솔루션의 구성으로 오류 추정치 (잔여)가 상관되지 않습니다.