우선 R
, 모델에 절편이 포함되지 않은 경우 소프트웨어가 수행하는 작업을 이해해야 합니다. 통상의 연산 리콜
절편이 존재이며
R 2 = Σ를 I ( Y I - ˉ Y ) (2)아르 자형2
첫 번째 평등에만때문에 모델의 절편을 포함 발생하더라도이 아마를 작성하는 두 가지 방법 중 더 인기가있다. 두번째평등은 실제로 더 일반적인 해석을 제공합니다! 이 점은이 관련 질문에서도다루어집니다.
아르 자형2= ∑나는( y^나는− y¯)2∑나는( y나는− y¯)2= 1 − ∑나는( y나는− y^나는)2∑나는( y나는− y¯)2.
그러나 모델에 절편이 없으면 어떻게됩니까?
R
아르 자형20= ∑나는와이^2나는∑나는와이2나는= 1 − ∑나는( y나는− y^나는)2∑나는와이2나는.
아르 자형2아르 자형20 .
아르 자형2아르 자형20
그러나 그것들은 어떻게 다르며 언제입니까?
와이^와이~
아르 자형2아르 자형20
아르 자형2= 1 − ∥ y − y^∥22∥ y - y¯1 ∥22,
아르 자형20= 1 − ∥ y − y~∥22∥ y ∥22,
∥ y ∥22= ∥ y − y¯1 ∥22+ n y¯2아르 자형20> R2
∥ y - y~∥22∥ y - y^∥22< 1 + y¯21엔∥ y - y¯1 ∥22.
와이~와이^아르 자형20아르 자형2
모든 모델 종속 항목은 왼쪽에 있고 비 모델 종속 항목은 오른쪽에 있습니다.
그렇다면 왼쪽의 비율을 어떻게 작게 만드나요?
와이~= P0와이와이^= P1와이피0피1에스0에스1에스0⊂ S1
따라서 비율이 1에 가까우려면 부분 공간이 필요합니다.
에스0에스1에스0에스11에스01 .
본질적으로, 이는 우리 예측 변수가 강한 평균 오프셋 자체를 가졌으며이 평균 오프셋이 예측 변수의 변동을 지배해야한다는 것을 의미합니다.
예
여기서 우리는 모델에서 명시 적으로 인터셉트를 사용하고 질문의 경우에 가까운 동작을하는 예제를 생성하려고 시도합니다. 아래는 간단한 R
코드입니다.
set.seed(.Random.seed[1])
n <- 220
a <- 0.5
b <- 0.5
se <- 0.25
# Make sure x has a strong mean offset
x <- rnorm(n)/3 + a
y <- a + b*x + se*rnorm(x)
int.lm <- lm(y~x)
noint.lm <- lm(y~x+0) # Intercept be gone!
# For comparison to summary(.) output
rsq.int <- cor(y,x)^2
rsq.noint <- 1-mean((y-noint.lm$fit)^2) / mean(y^2)
결과는 다음과 같습니다. 우리는 절편으로 모델 을 시작합니다 .
# Include an intercept!
> summary(int.lm)
Call:
lm(formula = y ~ x)
Residuals:
Min 1Q Median 3Q Max
-0.656010 -0.161556 -0.005112 0.178008 0.621790
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.48521 0.02990 16.23 <2e-16 ***
x 0.54239 0.04929 11.00 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.2467 on 218 degrees of freedom
Multiple R-squared: 0.3571, Adjusted R-squared: 0.3541
F-statistic: 121.1 on 1 and 218 DF, p-value: < 2.2e-16
그런 다음 절편 을 제외 하면 어떻게되는지 확인하십시오 .
# No intercept!
> summary(noint.lm)
Call:
lm(formula = y ~ x + 0)
Residuals:
Min 1Q Median 3Q Max
-0.62108 -0.08006 0.16295 0.38258 1.02485
Coefficients:
Estimate Std. Error t value Pr(>|t|)
x 1.20712 0.04066 29.69 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.3658 on 219 degrees of freedom
Multiple R-squared: 0.801, Adjusted R-squared: 0.8001
F-statistic: 881.5 on 1 and 219 DF, p-value: < 2.2e-16
다음은 절편이없는 모델과 절편이없는 모델이 파란색 인 데이터의 도표입니다.