Pearson 's Correlation Coefficient를 사용하면 상관 관계가 높은 여러 변수가 있습니다 ( 모델에있는 두 쌍의 변수에 대해 및 \ rho = 0.989 ).
이유는 하나 개의 변수가에서 사용되는 변수 중 일부는 고도의 상관 관계는 계산 다른 변수.
예:
및
와 는
변수 중 하나만 "버릴"수 있습니까?
Pearson 's Correlation Coefficient를 사용하면 상관 관계가 높은 여러 변수가 있습니다 ( 모델에있는 두 쌍의 변수에 대해 및 \ rho = 0.989 ).
이유는 하나 개의 변수가에서 사용되는 변수 중 일부는 고도의 상관 관계는 계산 다른 변수.
예:
및
와 는
변수 중 하나만 "버릴"수 있습니까?
답변:
B와 E는 모두 V에서 파생됩니다. B와 E는 실제로 "독립적 인"변수가 아닙니다. 여기서 중요한 변수는 V입니다.이 경우 B와 E를 모두 무시하고 V 만 유지해야합니다.
보다 일반적인 상황에서, 상관 관계가 매우 높은 두 개의 독립 변수가있는 경우 다중 공선 성 수수께끼에 빠지고 상관 관계가 높은 두 변수와 관련된 회귀 모델의 회귀 계수가 신뢰할 수 없으므로 변수 중 하나를 제거해야합니다. 또한 두 변수가 서로 밀접하게 관련되어 있으면 일반 영어로, 회귀 모델에 거의 정확히 동일한 정보를 전달할 수 있습니다. 그러나 둘 다 포함하면 실제로 모델이 약화됩니다. 증분 정보를 추가하지 않습니다. 대신, 모델에 노이즈를 주입하고 있습니다. 좋은 것은 아닙니다.
모델 내에서 상관 관계가 높은 변수를 유지할 수있는 한 가지 방법은 PCA (Principal Component Analysis) 모델을 회귀하는 대신 사용하는 것입니다. PCA 모델은 다중 공선 성을 없애기 위해 만들어졌습니다. 트레이드 오프는 모델 내에서 종종 수학적인 구성 요소이며 논리적 용어로는 이해하기 어려운 2 ~ 3 개의 주요 구성 요소로 끝납니다. 따라서 PCA는 경영진, 규제 기관 등과 같은 외부 청중에게 결과를 제시해야 할 때마다 방법으로 자주 포기됩니다. PCA 모델은 설명하기 매우 어려운 암호화 된 블랙 박스를 만듭니다.
여기에 기계 학습자의 관점에서 대답이 있습니다.하지만 실제 통계학자가 이길 것이라고 두려워합니다.
변수 중 하나만 "버릴"수 있습니까?
문제는 예측에 사용하려는 모델 유형입니다. 그것은 예를 들어 ...
때때로 우리는 기계 학습자들이 유전자 최적화를 수행하여 일련의 예측 변수의 최상의 산술 조합을 찾습니다.
B는 V의 선형 변환입니다. E는 V와 D 사이의 상호 작용을 나타냅니다. Y = 절편 + V + D + V : D 인 모델을 지정하는 것을 고려 했습니까? @ euphoria83에서 알 수 있듯이 D에는 약간의 차이가 있으므로 문제를 해결하지 못할 수 있습니다. 그러나 최소한 V와 D의 독립적 인 기여를 분명히해야합니다. 미리 V와 D를 가운데에 맞추십시오.
D가 상수가 아닌 경우, B와 E는 D의 변동으로 인해 사실상 두 개의 다른 변수입니다. 높은 상관 관계는 D가 훈련 데이터 전체에서 실질적으로 일정 함을 나타냅니다. 이 경우 B 또는 E를 버릴 수 있습니다.