선형 회귀 예측 변수를 추가하면 R 제곱이 감소합니다.


10

내 데이터 세트 (N10,000)에는 종속 변수 (DV), 5 개의 독립적 인 "기준선"변수 (P1, P2, P3, P4, P5) 및 하나의 독립적 인 관심 변수 (Q)가 있습니다.

다음 두 모델에 대해 OLS 선형 회귀를 실행했습니다.

DV ~ 1 + P1 + P2 + P3 + P4 + P5
                                  -> R-squared = 0.125

DV ~ 1 + P1 + P2 + P3 + P4 + P5 + Q
                                  -> R-squared = 0.124

즉, 예측 변수 Q를 추가하면 선형 모형에 설명 된 분산 량이 감소했습니다. 내가 이해하는 한, 이것은 일어나지 않아야합니다 .

명확하게하기 위해, 이것은 R- 제곱 값이며 조정 된 R- 제곱 값은 아닙니다 .

Jasp 및 Python의 statsmodels 사용하여 R- 제곱 값을 확인했습니다 .

이 현상을 볼 수있는 이유가 있습니까? 아마도 OLS 방법과 관련이 있습니까?


1
수치 문제? 숫자는 서로 매우 가깝습니다 ...

@ user2137591 이것이 내가 생각하는 것이지만 이것을 확인하는 방법을 모른다. R 제곱 차분 절대 값이 작고 0.000513569, 아니지만 작은.
Cai

1
선형 대수학을 알고 싶습니다. X 위의 디자인 매트릭스입니다, 계산해 주시겠습니까? detXTX여기서 는 행렬 전치이고 는 행렬 결정자입니까? Tdet
Clarinetist

8
결 측값이 자동으로 삭제됩니까?
generic_user

1
0.000513569는 매우 작은 숫자입니다 : 0.41 % 변화입니다. 수치 문제 일 가능성이 큽니다. Clarinetist가 말하고자하는 것은 아마도 당신의 디자인 매트릭스는 조건 번호가 열악하고 반전 될 때 수치 적으로 불안정하다는 것입니다.

답변:


25

Q자동 드롭되는 값이 누락되었을 수 있습니까? 그것은 샘플에 영향을 미쳐서 두 회귀를 비교할 수 없게 만듭니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.