내 이해에서, 상관 관계가 높은 변수는 임의 포리스트 모델에서 다중 공선 성 문제를 일으키지 않습니다 (잘못되면 수정하십시오). 그러나 다른 방법으로, 비슷한 정보를 포함하는 변수가 너무 많으면 다른 모델이 아닌이 세트에서 모델 가중치가 너무 커 집니까?
예를 들어, 동일한 예측 검정력을 가진 두 세트의 정보 (A, B)가 있습니다. 변수 , , ... 모두 정보 A를 포함하고 Y 만 정보 B를 포함합니다. 무작위 샘플링 변수 인 경우 대부분의 나무가 정보 A에서 자라며 결과적으로 정보 B가 완전히 캡처되지 않습니까?X 2 X 1000
multicollinearity
임의의 포리스트 모델에 영향을 미치지 않는 것으로 나타났습니다 . 예를 들어, 여기 에서 가장 선의적인 답변은 "임의 포리스트 모델의 어느 부분도 고도 공선 변수에 의해 영향을받지 않습니다"라고 말합니다. 이것이 유효합니까?