비선형 모델을 사용할 때 다중 공선성에 대해 걱정해야합니까?


13

대부분 범주 형 기능에 이진 분류 문제가 있다고 가정합니다. 비선형 모델 (예 : XGBoost 또는 Random Forests)을 사용하여 학습합니다.

  • 여전히 다중 공선성에 대해 걱정해야합니까? 왜?
  • 위의 답변이 사실이라면, 이러한 유형의 비선형 모델을 사용하고 있다는 점을 고려하여 어떻게 싸워야합니까?

답변:


7

특정 모델에서는 다중 공선 성이 문제가되지 않습니다. 임의의 포리스트 또는 의사 결정 트리와 같은 예를 들어 두 개의 동일한 열이있는 경우 의사 결정 트리 / 임의 포리스트는 각 분할에서 하나의 열을 자동으로 "삭제"합니다. 그리고 모델은 여전히 ​​잘 작동합니다.

또한 정규화는 다중 공선 성 문제를 "수정"하는 방법입니다. 내 대답 로지스틱 회귀에 대한 정규화 방법에 자세한 내용이 있습니다.


5
정규화에 의해 "고정 된"문제가 무엇인지 정확하게 설명하면 이것이 개선 될 것이라고 생각합니다.
Matthew Drury

2

파티에 늦었지만 여기에 내 대답이 있습니다. "예"입니다. 모델 / 방법이 선형인지 여부에 관계없이 항상 공선성에 관심을 가져야합니다.

방법으로서 데이터 세트와 랜덤 포레스트에 존재하는 다수의 선형 상관 공변량 / 특징을 가정하십시오. 분명히, 노드 당 무작위 선택은 불량한 결과를 초래할 수있는 공 선형 특징만을 선택할 수 있으며 이는 반복적으로 발생할 수 있으므로 성능에 부정적인 영향을 미칩니다.

이제 공선 피쳐는 다른 (비공 선) 피쳐보다 결과에 대한 정보가 적을 수 있으므로 어쨌든 피쳐 세트에서 제거하도록 고려해야합니다. 그러나 RF에 의해 생성 된 '기능 중요도'목록에서 기능의 순위가 높다고 가정합니다. 따라서 불필요하게 차원을 증가시키는 데이터 세트에 보관됩니다. 따라서 실제로는 탐색 단계 (많은 관련 단계 중)가 선형 상관 관계를 포함하여 피처의 쌍별 연결을 확인하는 경우가 항상 있습니다.


나는 다중 공선 성이 안전하게 무시 될 수있는 경우가 있다고 생각하는데, 그 중 일부는 여기에서 논의됩니다 : statisticshorizons.com/multicollinearity
Dr Nisha Arora

0
  1. 여전히 다중 공선성에 대해 걱정해야합니까? 왜?

비선형 모델이 트리 기반 모델 인 경우 심각하게 고려해서는 안됩니다. 임의의 포리스트는 트리를 독립적으로 빌드하고 모든 트리에 대해 기능을 무작위로 선택하기 때문에 임의의 포리스트는 둘 다 유지하는 것과 같이 다른 트리 모델에는 다른 거래 방법이 있지만 예측 성능에는 영향을 미치지 않습니다. 중복. 그러나 xgboost의 경우 누군가를 선택하여 마지막 트리 빌드까지 사용합니다.

  1. 위의 답변이 사실이라면, 이러한 유형의 비선형 모델을 사용하고 있다는 점을 고려하여 어떻게 싸워야합니까?

해석 의미에 관한 것이므로 상관 관계가 높은 변수를 제거하는 것이 좋습니다.


-3

다중 공선 성은 항상 가능한 문제입니다. 모형에서 예측 변수 인 변수는 선형 적으로 관련되어있을 때 (즉, 공선 성이 존재할 때) 예측에 영향을줍니다.


1
감사합니다. (1) 초점이 해석 성능이 아닌 예측 성능이고 (2) 모델이 비선형 인 경우 왜 이것이 여전히 문제가 될 수 있는지 자세히 설명 하시겠습니까? (그리고 그것이 정확히 어떻게 나타날까요?)
Josh

모형에서 예측 변수 인 이러한 변수는 선형 적으로 관련되어있을 때 예측에 영향을 미칩니다 (즉, 공선 성이 존재 함).
Michael R. Chernick

1
정확히 어떻게 예측에 영향을 미칩니 까? BTW ( stats.stackexchange.com/a/138082/99274 )는 귀하의 답변에 링크를 포함 시키거나 "그곳에 도착했습니다"라는 군중의 분노에 맞서게 됩니다.
Carl

7
분류는 예측과 밀접한 관련이 있으며 예측은 다중 공선 성을 겪지 않는 경향이 있으므로, 특히 문제에서 언급 된 특정 모델 의 경우 항상 "가능한 문제"라는 주장을지지하는 것이 중요합니다 . 어떤 종류의 문제가 분류에 대한 것이며 왜 그런가?
whuber

12
당신이 질문을 구걸하고 있다고 확신합니다. Whuber는 예측이 다중 공선 성으로 인해 어려움을 겪는 이유를 물었고 기본적으로 "예측은 다중 공선 성으로 인해 예측이 다중 공선 성으로 고통받습니다."라고 대답했습니다.
Matthew Drury
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.