다중 상관 계수


24

회귀 y i = β 1 + β 2 x 2 , i + + β k x k , i + ϵ i 또는 벡터 표기법에서 다중 상관 관계 R 및 결정 계수 의 기하학적 의미에 관심이 있습니다. ,R2yi=β1+β2x2,i++βkxk,i+ϵi

y=Xβ+ϵ

여기서 설계 행렬 Xn 행과 k 열을 가지며 , 첫 번째는 x1=1n 이며, 절편 해당하는 1의 벡터입니다 β1.

기하학은 k 차원 가변 공간 보다는 n 차원 대상 공간 에서 더 흥미 롭다 . 모자 매트릭스를 정의하십시오.k

H=X(XX)1X

이것은 의 열 공간에 대한 직교 투영 X, 즉 각 변수 x i를 나타내는 k 벡터에 의해 스팬 된 원점을 통한 평면 투영 이며, 첫 번째는 1 n 입니다. 이어서 H는 관찰 된 반응에의 벡터 돌출 Y를 평면에서의 "그림자"로, 장착 값 벡터 Y = H , Y는 , 우리는 우리가 잔차의 벡터 참조 돌기의 경로를 따라 보면 E = Y가 - 와이kxi1nHyy^=Hye=yy^삼각형의 세 번째면을 형성합니다. 이것은 우리에게 의 기하학적 해석에 대한 두 가지 경로를 제공해야합니다 .R2

  1. 상기 다수의 상관 계수의 제곱 사이의 상관 관계로 정의되고, YY . 이것은 각도의 코사인으로 기하학적으로 나타납니다.Ryy^
  2. 벡터의 길이 측면에서 : 예를 들어 .SSresidual=i=1nei2=e2

다음을 설명하는 간단한 계정을 보게되어 기쁩니다.

  • (1)과 (2)의 세부 사항은
  • (1)과 (2)가 동일한 이유
  • 간단히 말해, 기하학적 통찰력을 통해 의 기본 속성을 시각화 할 수있는 방법 , 예를 들어 잡음 분산이 0이되었을 때 1로 이동하는 이유는 무엇입니까? 그림.)R2

변수가 먼저 중심에 있으면 질문에서 절편을 제거하면 더 간단합니다. 그러나 다중 회귀를 도입하는 대부분의 교과서 계정에서 디자인 행렬 는 내가 설명한 대로입니다. 물론 박람회가 중심 변수에 의해 확장 된 공간을 파고 들어도 괜찮지 만, 교과서 선형 대수학에 대한 통찰력을 얻으려면 이것을 중심이없는 상황에서 기하학적으로 일어나는 일과 다시 관련시키는 것이 도움이 될 것입니다. 정말 통찰력있는 대답은 설명 할 수 정확하게 기하학적으로 분해되는 것을 절편 기간이 제거 될 때 - 즉 때 벡터 (1) NX1n스패닝 세트에서 제거됩니다. 중심 변수를 고려 하여이 마지막 요점을 해결할 수 있다고 생각하지 않습니다.

답변:


47

모형에 상수 항이있는 경우 X 의 열 공간에 있습니다 ( ˉ Y 1 n 과 마찬가지로 나중에 유용함). 피팅 Y는 관측의 정사영 인 Y 그 열 공간에 의해 형성되는 평면 상. 이 수단 잔차 벡터의 E = Y - Y는 평면에 수직이며, 따라서, 행 1 N . 내적을 고려하면 n i = 1 e i = 0 이므로1nXY¯1nY^Ye=yy^1ni=1nei=0 는 0으로 합산되어야합니다. 이후 Y = ^ Y I + E 우리 결론 Σ N = 1 Y를 = Σ N = 1 ^ Y를 제가 너무 모두 끼워 관찰 응답 평균 있는지 ˉ Y를 .eYi=Yi^+eii=1nYi=i=1nYi^Y¯

다중 회귀의 주제 공간에있는 벡터

도면에서 점선 나타내는 Y - ˉ Y 1 N 이며, 중심 관찰 끼워 맞춤 응답 벡터. 각도의 코사인 θ 이러한 벡터 사이 그러므로의 상관 것이다 YY 정의 다중 상관 계수이고, R . 이들 잔차 벡터의 벡터를 형성하는 삼각형 때문에 직각되는 Y - ˉ Y 1 N 놓여 평면뿐만 YY¯1nY^Y¯1nθYY^RY^Y¯1n 는 그것에 직교합니다. 금후:e

R=cos(θ)=adjhyp=Y^Y¯1nYY¯1n

피타고라스를 삼각형에 적용 할 수도 있습니다.

YY¯1n2=YY^2+Y^Y¯1n2

다음과 같이 더 친숙 할 수 있습니다.

i=1n(YiY¯)2=i=1n(YiY^i)2+i=1n(Y^iY¯)2

이것은 제곱의 합, 의 분해입니다 .SStotal=SSresidual+SSregression

결정 계수에 대한 표준 정의는 다음과 같습니다.

R2=1SSresidualSStotal=1i=1n(yiy^i)2i=1n(yiy¯)2=1YY^2YY¯1n2

When the sums of squares can be partitioned, it takes some straightforward algebra to show this is equivalent to the "proportion of variance explained" formulation,

R2=SSregressionSStotal=i=1n(y^iy¯)2i=1n(yiy¯)2=Y^Y¯1n2YY¯1n2

There is a geometric way of seeing this from the triangle, with minimal algebra. The definitional formula gives R2=1sin2(θ) and with basic trigonometry we can simplify this to cos2(θ). This is the link between R2 and R.

Note how vital it was for this analysis to have fitted an intercept term, so that 1n was in the column space. Without this, the residuals would not have summed to zero, and the mean of the fitted values would not have coincided with the mean of Y. In that case we couldn't have drawn the triangle; the sums of squares would not have decomposed in a Pythagorean manner; R2 would not have had the frequently-quoted form SSreg/SStotal nor be the square of R. In this situation, some software (including R) uses a different formula for R2 altogether.


1
+1 Very nice write-up and figure. I am surprised that it only has my single lonely upvote.
amoeba says Reinstate Monica

2
+1. Note that the figure of your answer, with "column space X", Y, Ypred as vectors etc. is what is known in multivariate statistics as "(reduced) subject space representation" (see, with further links where I've used it).
ttnphns
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.