임의 포리스트의 상관 관계가 높은 변수가 정확도와 기능 선택을 왜곡하지 않습니까?


32

내 이해에서, 상관 관계가 높은 변수는 임의 포리스트 모델에서 다중 공선 성 문제를 일으키지 않습니다 (잘못되면 수정하십시오). 그러나 다른 방법으로, 비슷한 정보를 포함하는 변수가 너무 많으면 다른 모델이 아닌이 세트에서 모델 가중치가 너무 커 집니까?

예를 들어, 동일한 예측 검정력을 가진 두 세트의 정보 (A, B)가 있습니다. 변수 , , ... 모두 정보 A를 포함하고 Y 만 정보 B를 포함합니다. 무작위 샘플링 변수 인 경우 대부분의 나무가 정보 A에서 자라며 결과적으로 정보 B가 완전히 캡처되지 않습니까?X 2 X 1000X1X2X1000

답변:


19

맞습니다. 그러나 변수 Y를 사용할 수있는 대부분의 서브 샘플링에서는 최상의 분할을 생성합니다.

더 자주 발생하도록 mtry를 늘리려 고 할 수 있습니다.

재귀 적 상관 정리를 시도하면 상관 관계가 가장 높은 두 변수 중 하나를 제거 할 수 있습니다. 이 가지 치기를 중지하는 합리적인 임계 값은 상관 관계 쌍 (pearson)이 보다 낮을 수 있습니다.R2<.7

재귀 변수 중요도 정리를 시도하여 제거 할 수 있습니다 (예 : 변수 중요도가 가장 낮은 20 %). randomForest 패키지의 rfcv를 사용해보십시오.

중복 변수의 일부 분해 / 집계를 시도 할 수 있습니다.


3
일부 출처에서는 multicollinearity임의의 포리스트 모델에 영향을 미치지 않는 것으로 나타났습니다 . 예를 들어, 여기 에서 가장 선의적인 답변은 "임의 포리스트 모델의 어느 부분도 고도 공선 변수에 의해 영향을받지 않습니다"라고 말합니다. 이것이 유효합니까?
Hunle

5
나는 당신이 문자 그대로 NO를 읽고 있다고 생각합니다. RF 모델은 상관성이 높고 중복 된 변수를 처리합니다. 그렇다고해서 모델이 관련이 없거나 완전히 중복 된 변수 (예 : 선형 재조합)를 차단하여 혜택을 얻는다는 의미는 아닙니다. 교차 검증 된 모델 성능의 완만 한 개선을 기대하기 위해 적절한 변수 선택만을지지합니다.
Soren Havelund Welling

24

오래된 스레드이지만 공선 성이 임의의 포리스트 모델에서는 문제가 아니라는 담요 진술에 동의하지 않습니다. 데이터 집합에 두 개 이상의 상관 된 피처가있는 경우 모델의 관점에서 이러한 상관 된 피처 중 하나를 예측 변수로 사용할 수 있습니다.

그러나 일단 그중 하나가 사용되면, 제거 할 수있는 불순물이 첫 번째 특징에 의해 이미 제거되기 때문에 다른 것의 중요성이 크게 줄어 듭니다.

결과적으로보고 된 중요성이 낮아질 것입니다. 다른 피처에 의해 대부분 복제되는 피처를 제거하는 것이 합리적이므로 피처 선택을 사용하여 과적 합을 줄이려는 경우에는 문제가되지 않지만 데이터를 해석 할 때 변수 중 하나가 잘못되었다는 잘못된 결론으로 ​​이어질 수 있습니다. 같은 그룹의 다른 사람들은 중요하지 않지만 실제로는 반응 변수와의 관계면에서 매우 가깝습니다.

이 현상의 효과는 각 노드 생성시 임의의 기능 선택으로 인해 다소 감소하지만 일반적으로 효과가 완전히 제거되지는 않습니다.

위의 내용은 대부분 여기에서 설명합니다. 좋은 기능 선택


3
변수 중요성이 종종 메트릭 bmcbioinformatics.biomedcentral.com/articles/10.1186/으로 사용 되기 때문에 RF를 사용한 기능 선택에 대한 기사로 이동했습니다. 적절한 외부 교차 검증 루프 내에서 수행되지 않은 경우 -validation. 올바르게 수행하면 예측 성능을 최적화하지 않거나 거의 최적화하지 못하는 경우가 많습니다. 이제는 주로 기능 선택을 사용하여 프로덕션에서 예측 기계를 단순화하거나 최종 모델을 더 투명하게 만듭니다.
Soren Havelund Welling

@SorenHavelundWelling- "적절한 외부 교차 유효성 검사 루프 내에서 수행하지 않으면 기능 선택시 지나치게 낙관적 교차 유효성 검사가 발생합니다"라고 말합니다. 그것을 설명 할 수 있습니까, 아니면 그것을 설명하는 출처를 참조 할 수 있습니까? 그것은 지금까지 읽은 모든 것에 반대합니다 ...
Jack Fleeting

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.