모형에 상수 항이있는 경우 은 X 의 열 공간에 있습니다 ( ˉ Y 1 n 과 마찬가지로 나중에 유용함). 피팅 Y는 관측의 정사영 인 Y 그 열 공간에 의해 형성되는 평면 상. 이 수단 잔차 벡터의 E = Y - Y는 평면에 수직이며, 따라서, 행 1 N . 내적을 고려하면 ∑ n i = 1 e i = 0 이므로1nXY¯1nY^Ye=y−y^1n∑ni=1ei=0 는 0으로 합산되어야합니다. 이후 Y 난 = ^ Y I + E 난 우리 결론 Σ N 난 = 1 Y를 난 = Σ N 난 = 1 ^ Y를 제가 너무 모두 끼워 관찰 응답 평균 있는지 ˉ Y를 .eYi=Yi^+ei∑ni=1Yi=∑ni=1Yi^Y¯
도면에서 점선 나타내는 과 Y - ˉ Y 1 N 이며, 중심 관찰 끼워 맞춤 응답 벡터. 각도의 코사인 θ 이러한 벡터 사이 그러므로의 상관 것이다 Y 및 Y 정의 다중 상관 계수이고, R . 이들 잔차 벡터의 벡터를 형성하는 삼각형 때문에 직각되는 Y - ˉ Y 1 N 놓여 평면뿐만 Y−Y¯1nY^−Y¯1nθYY^RY^−Y¯1n 는 그것에 직교합니다. 금후:e
R=cos(θ)=adjhyp=∥Y^−Y¯1n∥∥Y−Y¯1n∥
피타고라스를 삼각형에 적용 할 수도 있습니다.
∥Y−Y¯1n∥2=∥Y−Y^∥2+∥Y^−Y¯1n∥2
다음과 같이 더 친숙 할 수 있습니다.
∑i=1n(Yi−Y¯)2=∑i=1n(Yi−Y^i)2+∑i=1n(Y^i−Y¯)2
이것은 제곱의 합, 의 분해입니다 .SStotal=SSresidual+SSregression
결정 계수에 대한 표준 정의는 다음과 같습니다.
R2=1−SSresidualSStotal=1−∑ni=1(yi−y^i)2∑ni=1(yi−y¯)2=1−∥Y−Y^∥2∥Y−Y¯1n∥2
When the sums of squares can be partitioned, it takes some straightforward algebra to show this is equivalent to the "proportion of variance explained" formulation,
R2=SSregressionSStotal=∑ni=1(y^i−y¯)2∑ni=1(yi−y¯)2=∥Y^−Y¯1n∥2∥Y−Y¯1n∥2
There is a geometric way of seeing this from the triangle, with minimal algebra. The definitional formula gives R2=1−sin2(θ) and with basic trigonometry we can simplify this to cos2(θ). This is the link between R2 and R.
Note how vital it was for this analysis to have fitted an intercept term, so that 1n was in the column space. Without this, the residuals would not have summed to zero, and the mean of the fitted values would not have coincided with the mean of Y. In that case we couldn't have drawn the triangle; the sums of squares would not have decomposed in a Pythagorean manner; R2 would not have had the frequently-quoted form SSreg/SStotal nor be the square of R. In this situation, some software (including R
) uses a different formula for R2 altogether.