변수 / 기능 세트를 사용하여 선형 회귀 모델을 학습했습니다. 그리고 모델의 성능이 우수합니다. 그러나 예측 변수와 좋은 상관 관계가있는 변수가 없다는 것을 깨달았습니다. 그게 어떻게 가능해?
변수 / 기능 세트를 사용하여 선형 회귀 모델을 학습했습니다. 그리고 모델의 성능이 우수합니다. 그러나 예측 변수와 좋은 상관 관계가있는 변수가 없다는 것을 깨달았습니다. 그게 어떻게 가능해?
답변:
한 쌍의 변수는 높은 부분 상관 관계 (다른 변수의 영향을 고려한 상관 관계)를 보여 주지만 낮은 상관 관계 (제로 상관 관계)를 나타낼 수 있습니다.
이는 반응 y와 일부 예측 변수 x 사이의 쌍별 상관 관계가 다른 변수의 집합 중에서 (선형) "예측"값으로 적합한 변수를 식별하는 데 거의 가치가 없을 수 있음을 의미합니다.
다음 데이터를 고려하십시오.
y x
1 6 6
2 12 12
3 18 18
4 24 24
5 1 42
6 7 48
7 13 54
8 19 60
y와 x의 상관 관계는 입니다. 가장 작은 사각형을 그리면 완벽하게 수평이되고 R 2 는 자연스럽게 0이 됩니다.
그러나 관측치의 두 그룹 중 어느 그룹을 나타내는 새로운 변수 g를 추가하면 x는 매우 유익합니다.
y x g
1 6 6 0
2 12 12 0
3 18 18 0
4 24 24 0
5 1 42 1
6 7 48 1
7 13 54 1
8 19 60 1
x 및 g 변수가 모두 포함 된 선형 회귀 모형 의 는 1입니다.
이러한 종류의 일이 모델의 모든 변수에서 발생할 수 있습니다. 모두 반응과 작은 쌍으로 상관 관계가 있지만 모든 변수가있는 모델은 반응을 예측하는 데 매우 좋습니다.
추가 자료 :
여러 개의 독립 변수가있는 다중 회귀 모델을 훈련한다고 가정합니다. Y에 회귀 된 X 1 , X 2 , ...를 가지고 있습니다. 여기서 간단한 대답은 쌍으로 된 상관 관계는 지정되지 않은 회귀 모델을 실행하는 것과 같습니다. 따라서 중요한 변수는 생략했습니다.
보다 구체적으로, "예측 된 변수와 좋은 상관 관계가있는 변수가 없습니다"라고 말하면 종속 변수 Y와 각 독립 변수 사이의 쌍별 상관 관계를 확인하는 것처럼 들립니다. 이는 가 중요 할 때 가능 합니다 새로운 정보와는 사이의 혼란 정리하는 데 도움이 X 1 교란 것을,하지만 우리 사이에 선형 쌍대 상관 관계가 표시되지 않을 수와 Y로를 X 1 또한 부분 상관 관계 확인 할 수 있습니다와 Y를 ρ X를 1 , y | x 2 및 다중 회귀 y = β 1 . 다중 회귀 분석은 쌍별 상관 관계 ρ x 1 , y 보다 부분 상관 관계와 더 밀접한 관계가있습니다.
만약 벡터가 설정되어 있다면, 벡터의 측면에서, 및 다른 벡터 (Y)를 , 다음 경우 Y는 모든 벡터 행 (제로 상관)과 직교하는 X , 그것은 또한 행 벡터의 모든 선형 조합으로 직교 할 것이다 X . 그러나 X 의 벡터 가 큰 상관 관계가없는 성분과 작은 상관 관계가있는 성분을 갖고 상관 관계가없는 성분이 선형 적으로 종속적 인 경우 y 는 X 의 선형 조합과 상관 될 수 있습니다 . 즉, X = x 1 이면 x 2 입니다. . = x_i로부터의 직교 성분을 Y ,우리는 걸릴 O를 내가 에 x_i로부터 병렬 성분 =Y가 존재하는 경우, 그리고, c를 내가 되도록 Σ C 나 O I = 0 , 다음 Σ C 나 X 나 평행 것이다Y(즉, 최적 예측). 만약 Σ C 나 O I = 0이 작고, 다음 Σ C 나 X 내가 잘 예측 될 것이다. 따라서이 있다고 가정 과 X ~ N (0,1) 및 E ~ N (0,100). 이제 우리는 새로운 열 생성 X ' (1) 및 X ' 2 . 각 행에 대해, 우리는에서 무작위 표본 걸릴 E를 , 해당 번호를 추가 X 1 얻기 위해 X를 ' 1 과에서 빼기 X 2 얻을 X ' 2 . 각 행의 동일한 샘플 갖기 때문에 E를 첨가하고, 감산의되는 X ' (1) 및 X ' 2 열은 완벽 예측 것이다 Y Y 와 작은 상관 관계를 갖더라도 개별적 .