선형 적으로 밀접하게 관련된 두 예측 변수 중 하나를 간단히 제거 할 수 있습니까?


18

Pearson 's Correlation Coefficient를 사용하면 상관 관계가 높은 여러 변수가 있습니다 ( 모델에있는 두 쌍의 변수에 대해 및 \ rho = 0.989 ).ρ=0.978ρ=0.989

이유는 하나 개의 변수가에서 사용되는 변수 중 일부는 고도의 상관 관계는 계산 다른 변수.

예:

B=V/3000E=VD

BEρ=0.989

변수 중 하나만 "버릴"수 있습니까?

답변:


26

B와 E는 모두 V에서 파생됩니다. B와 E는 실제로 "독립적 인"변수가 아닙니다. 여기서 중요한 변수는 V입니다.이 경우 B와 E를 모두 무시하고 V 만 유지해야합니다.

보다 일반적인 상황에서, 상관 관계가 매우 높은 두 개의 독립 변수가있는 경우 다중 공선 성 수수께끼에 빠지고 상관 관계가 높은 두 변수와 관련된 회귀 모델의 회귀 계수가 신뢰할 수 없으므로 변수 중 하나를 제거해야합니다. 또한 두 변수가 서로 밀접하게 관련되어 있으면 일반 영어로, 회귀 모델에 거의 정확히 동일한 정보를 전달할 수 있습니다. 그러나 둘 다 포함하면 실제로 모델이 약화됩니다. 증분 정보를 추가하지 않습니다. 대신, 모델에 노이즈를 주입하고 있습니다. 좋은 것은 아닙니다.

모델 내에서 상관 관계가 높은 변수를 유지할 수있는 한 가지 방법은 PCA (Principal Component Analysis) 모델을 회귀하는 대신 사용하는 것입니다. PCA 모델은 다중 공선 성을 없애기 위해 만들어졌습니다. 트레이드 오프는 모델 내에서 종종 수학적인 구성 요소이며 논리적 용어로는 이해하기 어려운 2 ~ 3 개의 주요 구성 요소로 끝납니다. 따라서 PCA는 경영진, 규제 기관 등과 같은 외부 청중에게 결과를 제시해야 할 때마다 방법으로 자주 포기됩니다. PCA 모델은 설명하기 매우 어려운 암호화 된 블랙 박스를 만듭니다.


1
PCA에 대한 설명은 (+1)입니다.
steffen

1
감사합니다. 이것은 훌륭한 설명이었습니다. PCA에 대해 들었습니다. 그러나 이것은 제가 진행중인 "회귀"대학원 과정의 최종 프로젝트를위한 것이며 교수는 우리가 LR을 사용하기를 원합니다. 어쨌든, 나는 PCA에 대한 설명을 정말로 고맙게 생각하며 아마도 그것을 재미있게 사용할 것입니다.
TheCloudlessSky

3
특정 상황에서는이 답변의 권장 사항이 작동하지 않습니다. 예를 들어, 진정한 관계가 Y = B + E = V / 3000 + V * D이면 어떻게됩니까? 그런 다음 변수는 데이터 세트의 V 및 D 범위로 인해 높은 상관 관계를 갖습니다. 즉, 순수한 사고이거나 (또는 ​​순수한 사고 일 수 있음) B 또는 E 중 하나를 버리면 잘못된 모델이됩니다. 간단히 말해서 "의존성"은 일반적으로 모델에서 일부 변수를 제거하는 유효한 이유가 아닙니다. 강하게 의존하는 변수를 포함한다고해서 반드시 모델이 "약화"되는 것은 아닙니다. PCA가 항상 탈출구는 아닙니다.
whuber

@ whuber, 나는 당신의 의견에 동의하지 않습니다. "종속성"은 일반적으로 회귀 모델에서 일부 변수를 제거하는 매우 유효한 이유라고 생각합니다. 그렇지 않으면 회귀 계수를 신뢰할 수 없습니다. 회귀에 문제가되는 예제를 사용하는 경우 한 가지 간단한 해결책은 전체 표현식 (V / 3000 + V * D)을 단일 변수로 사용하는 것입니다.
Sympa

3
더 일반적으로 모델이 beta1 * (V / 3000) + beta2 * (V D)이면이 작업을 수행 할 수 없습니다. 즉, 제안 사항에 따라 계수간에 선형 제약 조건이 있다고 가정합니다. 회귀 계수가 상대적으로 큰 VIF 또는 표준 오차를 가질 수 있지만 충분한 양의 데이터 또는 잘 선택된 관측 값으로 추정값이 충분히 신뢰할 수있는 것은 사실입니다. 따라서 문제가 있음에 동의하며 실제로 고려해야 할 몇 가지 대안 중 하나로 귀하의 솔루션에 동의합니다 . 나는 그것이 당신이 그것을 만드는 것처럼 일반적이고 필요하다는 것에 동의하지 않습니다.
whuber

7

여기에 기계 학습자의 관점에서 대답이 있습니다.하지만 실제 통계학자가 이길 것이라고 두려워합니다.

변수 중 하나만 "버릴"수 있습니까?

문제는 예측에 사용하려는 모델 유형입니다. 그것은 예를 들어 ...

  • 상관 된 예측 변수가있는 모형이 있습니까? 예를 들어 NaiveBayes는 이론적으로 상관 변수에 문제가 있지만 실험에서 여전히 성능이 우수함을 보여주었습니다.
  • 모형이 예측 변수를 어떻게 처리합니까? 예를 들어, 확률 밀도 추정에서 B와 V의 차이가 정규화 될 것입니다. D의 분산에 따라 E와 V에 대해 동일 할 수도 있습니다 (이미 동요가 이미 말했듯이)
  • B와 E의 어느 사용법 조합 (하나, 둘 다, 둘 다)은 신중한 교차 검증 + 홀드 아웃 세트 테스트에 의해 추정 된 최상의 결과를 제공합니까?

때때로 우리는 기계 학습자들이 유전자 최적화를 수행하여 일련의 예측 변수의 최상의 산술 조합을 찾습니다.


7

B는 V의 선형 변환입니다. E는 V와 D 사이의 상호 작용을 나타냅니다. Y = 절편 + V + D + V : D 인 모델을 지정하는 것을 고려 했습니까? @ euphoria83에서 알 수 있듯이 D에는 약간의 차이가 있으므로 문제를 해결하지 못할 수 있습니다. 그러나 최소한 V와 D의 독립적 인 기여를 분명히해야합니다. 미리 V와 D를 가운데에 맞추십시오.


4
+1 :이 제안이 문제에 대한 좋은 접근 방법 일뿐만 아니라 변수를 버리는 것이 항상 공선 성 문제를 해결하기위한 올바른 (또는 좋은) 접근 방법은 아니라는 것을 보여줍니다.
whuber

0

D가 상수가 아닌 경우, B와 E는 D의 변동으로 인해 사실상 두 개의 다른 변수입니다. 높은 상관 관계는 D가 훈련 데이터 전체에서 실질적으로 일정 함을 나타냅니다. 이 경우 B 또는 E를 버릴 수 있습니다.


1
D=n12N2n2

B 또는 E를 버리고 동등한 것으로 취급하면 V가 실제로 중요하다는 것을 암시 적으로 주장합니다. 이 경우 해석이 명확하기 때문에 모델에서 B를 유지하는 것이 좋습니다. 또한 E를 유지하지만 D가 실제로 분산을 제한하는 경우 결과 해석의 타당성은 D의 다른 값에 대해 (평소보다) 의심 할
여지가 많습니다
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.