답변:
파티에 늦었지만 여기에 내 대답이 있습니다. "예"입니다. 모델 / 방법이 선형인지 여부에 관계없이 항상 공선성에 관심을 가져야합니다.
방법으로서 데이터 세트와 랜덤 포레스트에 존재하는 다수의 선형 상관 공변량 / 특징을 가정하십시오. 분명히, 노드 당 무작위 선택은 불량한 결과를 초래할 수있는 공 선형 특징만을 선택할 수 있으며 이는 반복적으로 발생할 수 있으므로 성능에 부정적인 영향을 미칩니다.
이제 공선 피쳐는 다른 (비공 선) 피쳐보다 결과에 대한 정보가 적을 수 있으므로 어쨌든 피쳐 세트에서 제거하도록 고려해야합니다. 그러나 RF에 의해 생성 된 '기능 중요도'목록에서 기능의 순위가 높다고 가정합니다. 따라서 불필요하게 차원을 증가시키는 데이터 세트에 보관됩니다. 따라서 실제로는 탐색 단계 (많은 관련 단계 중)가 선형 상관 관계를 포함하여 피처의 쌍별 연결을 확인하는 경우가 항상 있습니다.
비선형 모델이 트리 기반 모델 인 경우 심각하게 고려해서는 안됩니다. 임의의 포리스트는 트리를 독립적으로 빌드하고 모든 트리에 대해 기능을 무작위로 선택하기 때문에 임의의 포리스트는 둘 다 유지하는 것과 같이 다른 트리 모델에는 다른 거래 방법이 있지만 예측 성능에는 영향을 미치지 않습니다. 중복. 그러나 xgboost의 경우 누군가를 선택하여 마지막 트리 빌드까지 사용합니다.
해석 의미에 관한 것이므로 상관 관계가 높은 변수를 제거하는 것이 좋습니다.
다중 공선 성은 항상 가능한 문제입니다. 모형에서 예측 변수 인 변수는 선형 적으로 관련되어있을 때 (즉, 공선 성이 존재할 때) 예측에 영향을줍니다.