종속 변수의 측정 오차가 왜 결과에 치우 치지 않습니까?


10

독립 변수에 측정 오류가있는 경우 결과가 0에 대해 바이어스된다는 것을 이해했습니다. 종속 변수가 오류로 측정되면 표준 오류에만 영향을 미치지 만 이는 우리에게 의미가 없습니다. 원래 변수 아니라 다른 Y 와 오류 에 대한 의 영향 추정 . 그렇다면 어떻게 추정치에 영향을 미치지 않습니까? 이 경우 도구 변수를 사용하여이 문제를 제거 할 수 있습니까?Y YXYY

답변:


17

당신은 같은 간단한 모델을 추정 할 때

Yi=α+βXi+ϵi
대신의 진정한 Yi 당신은 단지 몇 가지 오류를 관찰 Y~i=Yi+νi 이되도록입니다 상관과 Xϵ , 당신이 회귀 경우
Y~i=α+βXi+ϵi
예상 β 입니다
β^=영형V(와이~나는,엑스나는)V아르 자형(엑스나는)=영형V(와이나는+ν나는,엑스나는)V아르 자형(엑스나는)=영형V(α+β엑스나는+ϵ나는+ν나는,엑스나는)V아르 자형(엑스나는)=영형V(α,엑스나는)V아르 자형(엑스나는)+β영형V(엑스나는,엑스나는)V아르 자형(엑스나는)+영형V(ϵ나는,엑스나는)V아르 자형(엑스나는)+영형V(ν나는,엑스나는)V아르 자형(엑스나는)=βV아르 자형(엑스나는)V아르 자형(엑스나는)=β
인해 간의 공분산 X_i\ epsilon_i, \ nu_i 사이의 공분산뿐만 아니라 임의의 변수와 상수 ( α )도 0 입니다.엑스나는ϵ나는,ν나는

따라서 계수가 일관되게 추정됩니다. 유일한 걱정은 는 통계 테스트의 검정력을 감소시키는 오류에 추가 용어를 제공한다는 것입니다. 종속 변수에서 이러한 측정 오류가 매우 나쁜 경우 실제로있을지라도 큰 영향을 미치지 않을 수 있습니다. 일반적으로 도구 변수는 OLS보다 훨씬 부정확 한 경향이 있으므로 설명 변수의 측정 오류 만 도울 수 있으므로이 경우에는 도움이되지 않습니다.와이~나는=와이나는+ν나는=α+β엑스나는+ϵ나는+ν나는


여기에 간단한 질문이 있습니다. 종속 변수의 측정 오류 인 νi가 관심있는 독립 변수와 상관 관계가 있다면 어떻게됩니까? 나는 이것이 일어날 수있는 많은 가능성이 있고 사회적 바람직 성 편향이 예가 될 수 있다고 상상할 것이다. 설문 응답자들이 종속 변수 설문에 응답 할 때 사회적 선호도 편향이 있었으며, 그 선호도가 독립 변수와 관련이있는 경우 연령 또는 성별 (사회적 선호도와 관련이있을 수 있음)을 가정 해 봅시다. 내생의 조건?
Kang Inkyu

3

회귀 분석은 "X 값을 주었던 사람들의 평균 Y 값은 무엇입니까?"라는 질문에 대답합니다. 또는 동등하게 "X를 한 단위 씩 바꾸면 Y가 평균을 바꿀 것으로 얼마나 예상됩니까?" 랜덤 측정 오차는 변수의 평균값 또는 개별 하위 집합의 평균값을 변경하지 않으므로 종속 변수의 랜덤 오차는 회귀 추정값을 바이어스하지 않습니다.

개인의 표본에 대한 신장 데이터가 있다고 가정 해 봅시다. 이 높이는 매우 정확하게 측정되어 모든 사람의 실제 키를 정확하게 반영합니다. 표본 내에서 남성의 평균은 175cm이고 여성의 평균은 162cm입니다. 성별이 신장을 얼마나 잘 예측하는지 계산하기 위해 회귀를 사용하는 경우 모형을 추정합니다

H이자형나는H=영형에스+β이자형이자형아르 자형+아르 자형이자형에스나는

여성이 0으로 코딩되고 남성이 1로 코딩되는 경우 는 여성 평균 또는 162cm입니다. 회귀 계수 는 를 1 단위 (0에서 1로) 변경할 때 평균에서 높이가 얼마나 변하는 지 보여줍니다 . 의 값 이 0 (여성) 인 사람의 평균 키는 의 값 이 1 (남자) 인 사람의 평균 키는 175 이므로 13 입니다. 센티미터; 는 남성과 여성의 키의 평균 차이 (13cm)를 추정합니다. ( 은 성별 내 차이를 반영합니다.)β G E N D E R β G E N D E R G E N D E R β R E S I D U A영형에스β이자형이자형아르 자형β이자형이자형아르 자형이자형이자형아르 자형β아르 자형이자형에스나는

이제 모든 사람의 실제 높이에 -1cm 또는 + 1cm를 임의로 추가하면 어떻게됩니까? 실제 키가 170cm 인 개체는 이제 169cm 또는 171cm로보고됩니다. 그러나 샘플 또는 하위 샘플의 평균은 변경되지 않습니다. 실제 키가 170cm 인 사람은 새로운 잘못된 데이터 집합에서 평균 170cm, 여자는 평균 162cm 등입니다.이 새 데이터 집합을 사용하여 위에서 지정한 회귀 모델을 다시 실행하면 의 (예상) 값 측정 오차와 상관없이 남녀 간의 평균 차이는 여전히 13cm이므로 변경되지 않습니다. ( 변수의 분산이 더 커지기 때문에 의 표준 오차 가 이전보다 커집니다.)ββ

종속 변수가 아닌 독립 변수에 측정 오류가있는 경우 는 치우친 추정치입니다. 높이 예제를 고려할 때 이해하기 쉽습니다. 변수 에 임의 측정 오류가있는 경우 일부 남성은 여성으로 잘못 코딩되고 그 반대의 경우도 있습니다. 이 효과는 남성의 암컷 그룹으로 이동하면 여성 평균이 커지고 여성은 남성 그룹으로 이동하면 남성 평균이 작아지기 때문에 높이의 명백한 성별 차이를 줄이는 것입니다. 독립 변수에 측정 오류가 있으면 는 바이어스되지 않은 값 13cm보다 낮습니다. G E N D E Rβ이자형이자형아르 자형β

여기서는 단순성을 위해 범주 형 독립 변수 ( )를 사용했지만 동일한 논리가 연속 변수에 적용됩니다. 예를 들어, 성인 신장을 예측하기 위해 출생 높이와 같은 연속 변수를 사용하는 경우 의 예상 값은 성인 신장 측정에서 임의 오류의 양에 상관없이 동일합니다.β이자형이자형아르 자형β

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.