잔차와 종속 변수 사이의 예상 상관 관계는 무엇입니까?


26

다중 선형 회귀 분석에서 잔차와 예측 변수 사이의 상관 관계가 0이라는 것을 알 수 있지만 잔차와 기준 변수 사이의 예상 상관 관계는 무엇입니까? 0 또는 상관 관계가 높아야합니까? 그 의미는 무엇입니까?


4
"기준 변수"란 무엇입니까?
whuber

2
@ whuber Jfly가 응답 / 결과 / 의존적 인 등을 언급하고 있다고 생각합니다. 변하기 쉬운. davidmlane.com/hyperstat/A101702.html 이러한 변수가 사용하는 많은 이름을 보는 것이 흥미 롭습니다. en.wikipedia.org/wiki/…
Jeromy Anglim

@Jeromy 감사합니다! 나는 그것이 의미라고 생각했지만 확실하지 않았습니다. 그것은 저에게 그리고 위키피디아에 새로운 용어입니다.
whuber

난이 동일 할 것이라고 생각했을 또는 비슷한 같은E[R2]R2=[corr(y,y^)]2
probabilityislogic

y=f(x)+e . 여기서 는 회귀 함수, 는 오류 및 입니다. 그런 다음 입니다. 이것이 표본 통계입니다. 예상 값은 비슷하지만 더 복잡합니다. feCov(f(x),e)=0Corr(y,e)=SD(e)/SD(y)=1R2
Ray Koopman

답변:


20

회귀 모형에서 :

yi=xiβ+ui

일반적인 가정은 , 은 iid 샘플이라는 것입니다. 가정에서 그 및 전체 순위를 가지고, 보통 최소 제곱 추정 := 1 , . . . , n E x i u i = 0 E ( x i x i )(yi,xi,ui)i=1,...,nExiui=0E(xixi)

β^=(i=1nxixi)1i=1xiyi

일관되고 무증상으로 정상입니다. 잔차와 반응 변수 사이의 예상 공분산은 다음과 같습니다.

Eyiui=E(xiβ+ui)ui=Eui2

우리는 또한 가정하는 경우 와 이면 와 회귀 잔차 간의 예상 공분산을 계산할 수 있습니다 .E ( U (2) 내가 | X 1 , . . . , X N ) = σ 2 IE(ui|x1,...,xn)=0E(ui2|x1,...,xn)=σ2yi

Eyiu^i=Eyi(yixiβ^)=E(xiβ+ui)(uixi(β^β))=E(ui2)(1Exi(j=1nxjxj)1xi)

이제 상관 관계를 얻으려면 및 를 계산해야합니다 . 그것은 밝혀졌다VAR ( U I )Var(yi)Var(u^i)

Var(u^i)=E(yiu^i),

금후

Corr(yi,u^i)=1Exi(j=1nxjxj)1xi

이제 가옵니다. 모자 행렬 대각선 에서 입니다. 행렬 는 dem 등원이므로 다음 특성을 만족합니다. H=X( X X ) 1 X X=[ x i ,. . , x N ] Hxi(j=1nxjxj)1xiH=X(XX)1XX=[xi,...,xN]H

trace(H)=ihii=rank(H),

여기서 는 의 대각선 항입니다 . 선형 적 독립 변수의 개수 보통 변수의 개수이다. 라고 부르 자 . 의 개수 는 표본 크기 입니다. 따라서 우리는 가 아닌 음이 아닌 항을가집니다 . 일반적으로 은 보다 훨씬 큽니다 . 따라서 많은 는 0에 가까워집니다. 즉, 관측치의 더 큰 부분에 대해 잔차와 반응 변수 사이의 상관 관계는 1에 가까워집니다. H 순위 ( H ) x i p h i i N N p N p h i ihiiHrank(H)xiphiiNNpNphii

라는 용어 는 영향력있는 관측 값을 결정하기위한 다양한 회귀 진단에도 사용됩니다.hii


10
+1 이것은 정확히 올바른 분석입니다. 그런데 왜 일을 끝내고 질문에 대답하지 않습니까? OP는이 상관 관계가 "높은지"여부와 그 의미를 묻습니다 .
whuber

당신은 상관 관계가 약이라고 말할 수 그래서1pN
probabilityislogic

1
상관 관계는 모든 관측에 따라 다르지만 X에 특이 값이 없으면 말할 수 있습니다.
mpiktas

21

상관 관계는 에 따라 다릅니다 . 경우 높고, 그것에는 종속 변수의 변화의 정도가 에러 용어는 독립 변수의 변화에 기인 한 NOT 될 수 있다는 것을 의미한다.R 2R2R2

그러나 가 낮 으면 종속 변수의 변동 대부분이 독립 변수의 변동과 관련이 없으므로 오류 항과 관련이 있어야합니다.R2

다음 모델을 고려하십시오.

Y XY=Xβ+ε . 여기서 와 는 서로 관련이 없습니다.YX

CLT가 보유하기에 충분한 규칙 조건을 가정합니다.

0XY Y =X β ε:=Y - Y =Y-0=YεYβ^ 에 수렴합니다 때문에, 와 상관이다. 따라서 는 항상 0입니다. 따라서 입니다. 과 는 완벽하게 상관되어 있습니다 !!!0XYY^=Xβ^ε:=YY^=Y0=YεY

다른 모든 것을 고정한 상태에서 늘리면 오류와 종속 항목 간의 상관 관계가 줄어 듭니다. 강한 상관 관계가 반드시 알람의 원인 일 필요는 없습니다. 이는 단순히 기본 프로세스에 노이즈가 있음을 의미 할 수 있습니다. 그러나, 가 낮으므로 (따라서 오차와 의존성 사이의 높은 상관 관계) 모델 불일치로 인한 것일 수 있습니다.R 2R2R2


이 답변 은 모델의 오차 항과 잔차 모두 나타내는 " " 사용을 통해 혼란 스러울 수 있습니다 . 혼란의 또 다른 지점은 수렴이 적용될 수있는 증거가 전혀 없지만 "수렴"이라는 의미입니다. 와 가 서로 관련 이 없다는 가정 은 특별하고 일반적인 상황을 나타내는 것이 아닙니다. 이 모든 답변은이 답변이 무엇을 말하려고하는지 또는 일반적으로 어떤 주장이 사실인지 모호합니다. Y - Y X YεYY^XY
whuber

17

이 질문의 관련성과 높은 인기에도 불구하고이 주제가 매우 흥미롭고 현재 답변이 불완전하거나 부분적으로 오도 된 것으로 나타났습니다.

고전 OLS 프레임 워크의 정의가 없어야 간의 관계및U의ŷu^ 얻어진 잔차 비상 관적 구성 당이기 때문에, OLS 추정을 유도 균일 성 하에서 분산 최소화 특성은 잔차 오차가 적합치 주변에 무작위로 퍼지도록합니다. 이것은 공식적으로 보여줄 수 있습니다 : Yŷ

= P σ 2 - P σ 2 = 0

Cov(ŷ,û|X)=Cov(Py,My|X)=Cov(Py,(IP)y|X)=PCov(y,y)(IP)
=Pσ2Pσ2=0

여기서 과 는 dem 등원 행렬로 정의됩니다 : 및 .P P = X ( X ' X ) X ' M = I - PMPP=X(XX)XM=IP

이 결과는 엄격한 외인성 및 균일성에 기초하며, 실질적으로 큰 샘플에서 유지됩니다. 그들의 uncorrelatedness의 직관은 다음 경우 : 피팅 값조건에 를 중심 로 그러나, 엄격한 exogeneity homoskedasticity 및 가정에서 어떤 편차는 설명 변수는 내생 적으로 발생할 사이 잠상 상관을 촉진 할 수및. X U U YŷXûûŷ

이제 잔차 간의 상관 관계하고 "원래" 완전히 다른 이야기입니다 :Yûy

Cov(y,û|X)=Cov(yMy|X)=Cov(y,(1P)y)=Cov(y,y)(1P)=σ2M

이론의 일부 확인과 우리는이 공분산 행렬이 잔차 자체 의 공분산 행렬과 동일하다는 것을 알고 있습니다. 우리는 :u^

Var(û)=σ2M=Cov(y,û|X)

OP의 요청에 따라 와 사이의 (스칼라) 공분산을 계산 하려면 다음을 얻습니다.Uyu^

Covscalar(y,û|X)=Var(û|X)=(ui2)/N

(= 공분산 행렬의 대각선 항목을 합산하고 N으로 나눔)

위의 공식은 흥미로운 점을 나타냅니다. 잔차 (+ constant)에서 를 회귀하여 관계를 테스트하면 기울기 계수 위 식을 다음과 같이 나눌 때 쉽게 도출 할 수 있습니다. .U β Uyu^바르(U | X)βu^,y=1Var(û|X)

반면, 상관은 각 표준 편차에 의한 표준화 된 공분산입니다. 이제 잔차의 분산 행렬은 이고 의 분산 은 입니다. 따라서 의 상관 관계 는 다음과 같습니다.Y σ 2 ICORR(Y,U)σ2Myσ2ICorr(y,û)

Corr(y,û)=Var(û)Var(u^)Var(y)=Var(û)Var(y)=Var(û)σ2

이것이 선형 회귀를 유지해야하는 핵심 결과입니다. 직감은 은 오차항의 실제 분산과 잔차를 기준으로 분산에 대한 프록시 사이의 오차를 표현한다는 것입니다. 의 분산 알 의 분산과 동일 플러스 잔여의 분산 . 따라서 다음과 같이 직관적으로 다시 작성할 수 있습니다.Corr(y,û)yy^u^

Corr(y,û)=11+Var(y)^Var(û)

이곳은 직장에서 두 가지 힘입니다. 회귀선에 잘 맞으면 으로 인해 상관 관계가 낮을 것으로 예상됩니다 . 반면에, 는 무조건적이며 매개 변수 공간의 한 줄이기 때문에 약간의 퍼지입니다. 비율 내에서 무조건 및 조건부 분산을 비교하는 것은 결국 적절한 지표가 아닐 수 있습니다. 아마도 그것이 실제로 실제로 거의 이루어지지 않는 이유 일 것입니다.Var(û)0Var(y^)

시도가 질문 결론 : 간의 상관 하고긍정적이고 무조건 분산에 의해 프록시 잔차의 분산과 진정한 에러 용어의 편차의 비율에 관한 . 따라서, 그것은 약간 오해의 소지가있는 지표입니다.yûy

이 연습은 우리에게 동작과 OLS 회귀의 고유 한 이론적 가정에 약간의 직관을 줄 수에도 불구하고, 우리는 거의 상관 관계 평가하지 와. 실제 오류 항의 속성을 확인하기위한 테스트가 확실히 확립되어 있습니다. 둘째, 잔차는 잔차에 대한 시험 오류 용어는 아니며, 마음에 계속 진정한 오류 용어에 대한 메이크업 예측 최대한주의하여 취급 제한됩니다과 유효성 필요.yûûu

예를 들어 여기에서 이전 포스터의 진술을 지적하고 싶습니다. 그 말은

"잔차가 독립 변수와 상관되어 있다면 모형은 이분산성입니다."

나는이 맥락에서 완전히 유효하지 않을 수 있다고 생각합니다. 믿거 나 말거나, 그러나 OLS 잔차구조로되어는 독립 변수와 상관되지 않은 것으로 이루어 . 이것을 보려면 다음을 고려하십시오.ûxk

Xui=XMy=X(IP)y=XyXPy
=XyXX(XX)Xy=XyXy=0
Xui=0Cov(X,ui|X)=0Cov(xki,ui|xki)=0

그러나 설명 변수가 오류 항 과 관련이 있다는 주장을들을 수 있습니다 . 이러한 주장은 실제 회귀 모델을 사용 하여 전체 모집단 에 대한 가정을 기반으로하며 , 직접 관찰 하지는 않습니다 . 따라서, 상관 관계 검사 하고 선형 OLS 프레임 워크 무의미 를 테스트 때, 이분 , 우리는 예를 들어, 우리가 제곱 잔차 퇴화, 계정으로 여기에 두 번째 조건 잠시 시간을내어 또는 함수yûXXFGSL 추정기의 경우가 종종 있습니다. 이것은 평범한 상관 관계를 평가하는 것과 다릅니다. 이것이 문제를보다 명확하게하는 데 도움이되기를 바랍니다.


1
참고 우리가 가지고 (적어도 약 어쨌든). 이것은 하며, 이는 이후 단락에서 언급 한 내용에 대한 추가 직관입니다. var(u^)var(y)=SSETSS=1R2corr(y,u^)=1R2
확률

2
이 답변에서 흥미로운 점은 상관 관계가 항상 긍정적이라는 것입니다.
확률

는 행렬 이라고 그 값으로 나눕니다. Var(y)
mpiktas

@probabilityislogic : 귀하의 단계를 따를 수 있는지 확실하지 않습니다. 그러면 제곱근 1+ (1 / 1-R ^ 2), 즉 (2-R ^ 2) / (1-R ^ 2)입니까? 그러나 사실은 긍정적 인 것입니다. 직감은 산점도를 통해 선이 있고 해당 선의 오류에 대해이 선을 회귀하는 경우 해당 선의 값 y가 증가함에 따라 잔차 값도 증가한다는 것이 분명해야합니다. 이는 잔차가 구성에 의해 y에 긍정적으로 의존하기 때문입니다.
Majte

@mpiktas :이 경우에 우리는 y를 1 차원으로 만 다루면서 행렬이 스칼라가됩니다.
Majte

6

아담의 대답이 잘못되었습니다. 데이터에 완벽하게 맞는 모델을 사용하더라도 잔차와 종속 변수간에 높은 상관 관계를 유지할 수 있습니다. 이것이 회귀 서적이이 상관 관계를 확인하도록 요구하지 않는 이유입니다. Dr. Draper의 "Applied Regression Analysis"책에서 답을 찾을 수 있습니다.


3
정확하더라도 이것은 CV의 표준 @Jeff에 의한 답변보다 더 많은 주장입니다. 귀하의 주장을 정교화 / 백업 할 수 있습니까? Draper & Smith의 페이지 번호와 판만으로도 충분할 것입니다.
gung-모니 티 복원

4

따라서 잔차는 설명 할 수없는 분산, 모델 예측과 모델링중인 실제 결과의 차이입니다. 실제로 선형 회귀 분석을 통해 선형 회귀 분석을 사용하지 않는 한 선형 회귀를 통해 생성 된 일부 모델의 잔차가 거의 0에 가깝습니다.

이상적으로는 모델의 잔차가 임의적이어야합니다. 즉, 독립 변수 나 종속 변수 (기준 변수라고 함)와 상관되지 않아야합니다. 선형 회귀 분석에서는 오차항이 정규 분포이므로 잔차도 정규 분포를 따라야합니다. 특이 치가 유의하거나 잔차가 종속 변수 또는 독립 변수와 상관되어있는 경우 모형에 문제가있는 것입니다.

유의미한 특이 치와 잔차의 비정규 분포가있는 경우 특이 치가 가중치 (베타)를 왜곡 할 수 있으며 관측치가 가중치에 미치는 영향을 확인하기 위해 DFBETAS를 계산하는 것이 좋습니다. 잔차가 종속 변수와 상관 관계가있는 경우 설명하지 않은 상당한 양의 설명 할 수없는 분산이 있습니다. 자기 상관으로 인해 같은 것에 대한 반복 된 관측을 분석하는 경우에도이 정보가 표시 될 수 있습니다. 잔차가 시간 또는 인덱스 변수와 상관되어 있는지 확인하여 확인할 수 있습니다. 잔차가 독립 변수와 상관되어있는 경우 모형은이 분산입니다 ( http://en.wikipedia.org/wiki/Heteroscedasticity 참조).). 입력 변수가 정규 분포인지 확인하고 (아직 그렇지 않은 경우), 그렇지 않은 경우 데이터를 더 많이 만들려면 데이터의 스케일링 또는 변환 (가장 일반적인 종류는 로그 및 제곱근)을 고려해야합니다. 정규화.

잔차 및 독립 변수 모두의 경우 QQ-Plot을 수행하고 Kolmogorov-Smirnov 테스트 (이 특정 구현을 Lilliefors 테스트라고도 함)를 수행하여 값을 확인해야합니다. 정규 분포에 적합합니다.

이 문제를 처리하는 데 빠르고 도움이 될 수있는 세 가지 사항은 잔차의 중앙값을 조사하는 것입니다. 가능한 한 0에 가까워 야합니다 (오류 항의 적합 결과로 평균은 거의 항상 0입니다) 선형 회귀 분석)에서 잔차의 자기 상관에 대한 Durbin-Watson 검정 (특히, 앞서 언급 한 것과 동일한 결과를 여러 번 관찰하는 경우)하고 부분 잔차 그림을 수행하면 이분산성과 특이 치를 찾는 데 도움이됩니다.


대단히 감사합니다. 당신의 설명은 저에게 매우 도움이됩니다.
Jfly

1
+1 훌륭하고 포괄적 인 답변. 나는 2 포인트에 nitpick하려고합니다. "잔차가 독립 변수와 상관되어 있으면 모형이이 분산입니다"- 잔차 의 분산 이 독립 변수의 수준에 의존하면 이분산성이 있습니다. 또한 Kolmogorov-Smirnov / Lilliefors 테스트는 "명백하게 신뢰할 수 없음"으로 설명되어 있으며, 실제로는 이것이 사실임을 분명히 알았습니다. QQ 플롯 또는 간단한 히스토그램을 기반으로 주관적인 결정을 내리는 것이 좋습니다.
rolando2

4
이 스레드에 대한 다른 답변에서 설명한 것처럼 "모델의 잔차는 ... 종속 변수와 상호 관련되어서는 안됩니다"라는 주장은 일반적으로 사실이 아닙니다. 이 게시물을 수정 하시겠습니까?
gung-Monica Monica 복원

1
(-1)이 게시물이 질문과 관련이 없다고 생각합니다. 일반적인 조언으로는 좋지만 "잘못된 질문에 대한 정답"의 경우 일 수 있습니다.
probabilityislogic
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.