결과와 예측 변수 사이에 실질적인 상관 관계가없는 경우 어떻게 좋은 선형 회귀 모델을 얻을 수 있습니까?


17

변수 / 기능 세트를 사용하여 선형 회귀 모델을 학습했습니다. 그리고 모델의 성능이 우수합니다. 그러나 예측 변수와 좋은 상관 관계가있는 변수가 없다는 것을 깨달았습니다. 그게 어떻게 가능해?


3
이것들은 훌륭한 답변이지만, 그 질문에 대한 답이 채우려는 많은 세부 사항이 빠져 있습니다. 내 마음의 가장 큰 질문은 "좋은 상관 관계"라는 의미입니다.
DHW September

답변:


35

한 쌍의 변수는 높은 부분 상관 관계 (다른 변수의 영향을 고려한 상관 관계)를 보여 주지만 낮은 상관 관계 (제로 상관 관계)를 나타낼 수 있습니다.

이는 반응 y와 일부 예측 변수 x 사이의 쌍별 상관 관계가 다른 변수의 집합 중에서 (선형) "예측"값으로 적합한 변수를 식별하는 데 거의 가치가 없을 수 있음을 의미합니다.

다음 데이터를 고려하십시오.

   y  x
1  6  6
2 12 12
3 18 18
4 24 24
5  1 42
6  7 48
7 13 54
8 19 60

y와 x의 상관 관계는 입니다. 가장 작은 사각형을 그리면 완벽하게 수평이되고 R 2 는 자연스럽게 0이 됩니다.0R20

그러나 관측치의 두 그룹 중 어느 그룹을 나타내는 새로운 변수 g를 추가하면 x는 매우 유익합니다.

   y  x g
1  6  6 0
2 12 12 0
3 18 18 0
4 24 24 0
5  1 42 1
6  7 48 1
7 13 54 1
8 19 60 1

x 및 g 변수가 모두 포함 된 선형 회귀 모형 의 는 1입니다.R2

y 대 x의 플롯은 쌍별 선형 관계가 부족하지만 그룹을 나타내는 색상으로 표시됩니다.  각 그룹 내에서 관계는 완벽합니다

이러한 종류의 일이 모델의 모든 변수에서 발생할 수 있습니다. 모두 반응과 작은 쌍으로 상관 관계가 있지만 모든 변수가있는 모델은 반응을 예측하는 데 매우 좋습니다.

추가 자료 :

https://en.wikipedia.org/wiki/Omitted-variable_bias

https://ko.wikipedia.org/wiki/Simpson%27s_paradox


이 동작이 실제 선형 모델에서 발생할 수 있습니까? 여기서 색상 (g = 0 / 1)과 반응 y의 관계는 비선형 인 것으로 보입니다. 그러나, 무엇 일어날 수있는 것이 있다는 것입니다 없는 모델의 g이 될 수있다 (임의?)을보다 낮은 R 2 와 모델의 g . R2gR2g
Vimal

Jeez, 나는 모델을 면밀히 살펴 봐야했다 :) . 그 질문을 긁어 라! y=x41g
Vimal

그것은 실제로 응답이 만들어진 모델이었습니다. 그러나 파란색 점을 임의의 하나의 단위 (화면 표면에서 새로운 "g"축 방향을 따라)쪽으로 들어 올리고 평면이 6 개의 점에 맞는 것을 상상하면 간단히 선형임을 알 수 있습니다.
Glen_b-복지 주 모니카

1
회귀에서 X 변수는 조절되고 종종 제어 될 수 있으므로 "독립성"은 일반적으로 찾는 것이 아닙니다. 설계된 실험 이외의 경우 독립 예측 변수는 거의 나타나지 않습니다. 실험을 설계 한 경우 예측 변수는 임의 변수가 아니므로 "독립성"(통계적 의미)은 사용자가보고있는 것이 아닙니다. 아마도 상호 직교성처럼. ... ctd
Glen_b-복지국 모니카

1
ctd ... 실제로 모든 예측 변수의 통계적 독립성을 의미하는 (상호 / p- 변량) 통계량을 사용하는 경우 단 변량 회귀에 대한 계수는 정확히 0이 아니고 위의 예와 같이 완전히 분리 할 필요는 없습니다. .
Glen_b-복지 주 모니카

2

여러 개의 독립 변수가있는 다중 회귀 모델을 훈련한다고 가정합니다. Y에 회귀 된 X 1 , X 2 , ...를 가지고 있습니다. 여기서 간단한 대답은 쌍으로 된 상관 관계는 지정되지 않은 회귀 모델을 실행하는 것과 같습니다. 따라서 중요한 변수는 생략했습니다.X1X2

보다 구체적으로, "예측 된 변수와 좋은 상관 관계가있는 변수가 없습니다"라고 말하면 종속 변수 Y와 각 독립 변수 사이의 쌍별 상관 관계를 확인하는 것처럼 들립니다. 이는 가 중요 할 때 가능 합니다 새로운 정보와는 사이의 혼란 정리하는 데 도움이 X 1 교란 것을,하지만 우리 사이에 선형 쌍대 상관 관계가 표시되지 않을 수와 Y로를 X 1 또한 부분 상관 관계 확인 할 수 있습니다와 Y를 ρ X를 1 , y | x 2 및 다중 회귀 y = β 1X2X1X1ρx1,y|x2 . 다중 회귀 분석은 쌍별 상관 관계 ρ x 1 , y 보다 부분 상관 관계와 더 밀접한 관계가있습니다.y=β1X1+β2X2+ϵρx1,y


0

만약 벡터가 설정되어 있다면, 벡터의 측면에서, 및 다른 벡터 (Y)를 , 다음 경우 Y는 모든 벡터 행 (제로 상관)과 직교하는 X , 그것은 또한 행 벡터의 모든 선형 조합으로 직교 할 것이다 X . 그러나 X 의 벡터 가 큰 상관 관계가없는 성분과 작은 상관 관계가있는 성분을 갖고 상관 관계가없는 성분이 선형 적으로 종속적 인 경우 yX 의 선형 조합과 상관 될 수 있습니다 . 즉, X = x 1 이면 x 2 입니다. . = x_i로부터의 직교 성분을 Y ,XXXXX우리는 걸릴 O를 내가X=x1,x2...oi 에 x_i로부터 병렬 성분 =Y가 존재하는 경우, 그리고, c를 내가 되도록 Σ C O I = 0 , 다음 Σ C X 평행 것이다Y(즉, 최적 예측). 만약 Σ C O I = 0이 작고, 다음 Σ C X 내가 잘 예측 될 것이다. 따라서이 있다고 가정picicioi=0cixicioi=0cixi XX1 ~ N (0,1) 및 E ~ N (0,100). 이제 우리는 새로운 열 생성 X ' (1) X ' 2 . 각 행에 대해, 우리는에서 무작위 표본 걸릴 E를 , 해당 번호를 추가 X 1 얻기 위해 X를 ' 1 과에서 빼기 X 2 얻을 X ' 2 . 각 행의 동일한 샘플 갖기 때문에 E를 첨가하고, 감산의되는 X ' (1) X ' 2 열은 완벽 예측 것이다 YX2EX1X2EX1X1X2X2EX1X2Y Y 와 작은 상관 관계를 갖더라도Y 개별적 .

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.