답변:
상관 된 모든 변수를 제거하지 않으려 고합니다. 상관 관계가 너무 강해서 추가 정보를 전달하지 않는 경우에만 가능합니다. 이것은 상관 관계의 강도, 보유한 데이터의 양 및 상관 변수 간의 작은 차이가 결과에 대해 무언가를 알려주는지 여부의 함수입니다.
처음 두 모델은 모델을 만들기 전에 알 수 있습니다. 따라서 처음 두 가지 고려 사항의 조합을 기반으로 변수를 제거하는 것이 매우 합리적 일 수 있습니다 (예 : 추가 변수에 원칙적으로 유용한 정보가 포함되어 있어도 상관 관계의 강도와 데이터 양을 알 수 없음) 모델링 / 피처 엔지니어링을하기 전에 최종 포인트는 실제로 모델링을 수행 한 후에 만 평가할 수 있습니다.
그 누구도 해석 성을 언급하지 않았다는 것이 이상하다 .
관심있는 모든 것이 performance 이면 correlation = 1 또는 -1이 아닌 한 두 개의 상관 변수를 제거하는 것은 의미가 없습니다.이 경우 변수 중 하나가 중복됩니다.
그러나 해석 가능성이 걱정된다면 상관 관계가 약하더라도 변수 중 하나를 제거하는 것이 좋습니다. 선형 모델의 경우 특히 그렇습니다. 선형 회귀 의 가정 중 하나 는 예측 변수에 완벽한 다중 공선 성 이 없다는 것입니다.
A가 B와 상관되어 있으면 A와 B의 계수를 해석 할 수 없습니다. 이유를 보려면 A = B (완벽한 상관 관계) 인 극단적 인 경우를 상상해보십시오. 그리고, y = 100 * A + 50 * B 모델은 y = 5 * A + 10 * B 모델 또는 y = -2000 * A + 4000 * B 모델과 동일합니다. 최소 제곱 최소화 문제에 대한 가능한 솔루션에는 여러 가지 평형이 있으므로 "신뢰할 수"없습니다.
다른 모델에서도 비슷한 일이 발생할 수 있습니다. 예를 들어, A와 B의 상관 관계가 높은 경우 의사 결정 트리가 A를 B보다 두 배로 선택한 경우 A가 B보다 중요하다고 말할 수 없습니다. 모형을 재교육하면 반대의 상황이 발생할 수 있습니다.
VIF (Variance Inflation Factor) 확인을 고려해야 합니다. VIF가 더 높은 기능을 제거해보십시오. 일반적으로, VIF는 10 미만인 것이 바람직하다.
중요하지 않습니다. 그러나 기능 엔지니어링 이전의 효율성을 위해.