에 관한 매우 기본적인 질문 OLS 회귀
- OLS 회귀 y ~ x1을 실행하면 0.3이라고
- OLS 회귀 분석 y ~ x2를 실행하십시오. 0.4라고
- 이제 우리는 회귀 y ~ x1 + x2를 실행합니다.이 회귀의 R 제곱은 얼마입니까?
나는 그것이 분명하다고 생각 다중 회귀는 0.4 이상이어야하지만 0.7 이상일 수 있습니까?
에 관한 매우 기본적인 질문 OLS 회귀
나는 그것이 분명하다고 생각 다중 회귀는 0.4 이상이어야하지만 0.7 이상일 수 있습니까?
답변:
두 번째 회귀 변수는 첫 번째 변수가 종속 변수에서 설명하지 않은 것을 간단히 보완 할 수 있습니다. 다음은 수치 예입니다.
x1
표준 정규 회귀 분석기, 표본 크기 20으로 생성 합니다., 어디 이다 . 이제 두 번째 회귀 변수 x2
를 단순히 종속 변수와 첫 번째 회귀 변수의 차이로 간주하십시오.
n <- 20
x1 <- rnorm(n)
y <- .5*x1 + rnorm(n)
x2 <- y - x1
summary(lm(y~x1))$r.squared
summary(lm(y~x2))$r.squared
summary(lm(y~x1+x2))$r.squared
x1 + x2 = y
그렇다면 summary(lm(y~x1))$r.squared + summary(lm(y~x2))$r.squared
1 이상이어야 한다고 생각 했지만 분명히 나는 틀렸다 ..
어떤 변수가 먼저 모델에 입력되는지에 따라 0.3 또는 0.4 인 하한 이외의 다른 말로는 말할 수 없습니다. 얼마예요상승은 두 번째 변수가 모델에 가져 오는 정보에 크게 좌우됩니다. 정보로서, 우리는 물론 응답의 변형을 설명합니다.
이와 관련하여 중요 하며 예측 변수 간의 상관 관계 라는 한 가지 개념이 있습니다. 상관 관계가 크면 새 변수는 모형에 아무 것도 가져 오지 않을뿐만 아니라 추정치가 부정확 해짐에 따라 기존 변수에 대한 추론을 복잡하게 만듭니다 (다중 공선 성). 이것이 새로운 변수가 다른 변수와 직교 하는 것을 이상적으로 선호하는 이유 입니다. 이것은 관측 연구에서 일어날 가능성이 적지 만, 예를 들어 자신의 실험을 구성 할 때 통제 된 환경에서 달성 될 수 있습니다.
그러나 변수가 모델에 가져올 새로운 정보를 정확하게 정량화하는 방법은 무엇입니까? 이 모든 고려 하나 개 널리 사용되는 척도이다 부분 . 선형 모형의 분산 분석에 익숙한 경우이 변수를 모형에 포함시켜 달성 할 오차 제곱 의 비례 감소 에 불과합니다 . 높은 비율은 바람직하지만 낮은 비율은 이것이 이것이 올바른 행동 과정인지 아닌지를 생각하게 할 것입니다.
따라서 @cardinal이 주석에서 지적했듯이 새로운 결정 계수는 1만큼 높을 수 있습니다. 0.400001만큼 낮을 수도 있습니다. 추가 정보 없이는 말할 방법이 없습니다.
다중 선형 회귀 분석의 결정 계수 : 다중 선형 회귀 분석에서 2 차 형식을 사용하여 변수에 대한 쌍별 상관 관계로 측정 계수를 작성할 수 있습니다.
여기서 는 응답 벡터와 각 설명 벡터 사이의 상관 관계 벡터이며 는 설명 벡터 간의 상관 행렬입니다 (자세한 내용은이 관련 질문 참조 ). 이변 량 회귀의 경우 다음이 있습니다.
질문에 일 변량 상관의 방향을 지정하지 않았으므로 일반성의 손실없이 입니다. 값을 및 바꾸면 다음과 같습니다.
이 가능하다 이 부분의 합보다 더하는 두 변수의 조합 정보를 수 있기 때문에. 이 흥미로운 현상을 '향상'이라고합니다 (예 : Lewis and Escobar 1986 참조 ).