랜덤 포레스트 분류기의 최적 매개 변수는 무엇입니까?


14

현재 이진 분류 문제로 MATLAB에서 RF 도구 상자를 사용하고 있습니다.

데이터 세트 : 50000 개 샘플 및 250 개 이상의 기능

그렇다면 나무를 키우기 위해 각 분할에서 나무의 수와 무작위로 선택한 기능은 무엇입니까? 다른 매개 변수가 결과에 큰 영향을 줄 수 있습니까?

답변:


8

인터넷에서 읽은 것 중에서 무작위로 선택된 기능을 로 선택하십시오. 그러나 원래 논문 에서 Breiman은 가장 가까운 정수를 사용했습니다 .250logMlog2

교차 유효성 검사는 일반적으로 최적의 매개 변수를 찾는 데 중요하지만 임의의 포리스트에 대해서는 충분히 알지 못합니다.


Breiman은 기능을 사용했습니다. 귀하의 링크가 작동하지 않기 때문에 여기에 의견을 남기고 싶습니다.)1+log2M
Antoine

감사합니다. 링크를 업데이트했습니다. 이제 버클리로 직접 연결됩니다.
Wok

12

나무 의 수가 많을수록 좋습니다. 이 매개 변수를 사용하면 거의 오버 슈트 할 수 없지만 물론 상한은 RF에 소비하려는 계산 시간에 따라 다릅니다.
좋은 방법은 긴 포리스트를 먼저 만든 다음 OOB 정확도가 수렴 될 때 (MATLAB 구현에서 사용할 수 있기를 바랍니다) 확인하는 것입니다.

시도한 속성 의 수 기본값은 전체 속성 수의 제곱근이지만 일반적으로 포리스트는이 매개 변수의 값에 매우 민감하지 않습니다. 실제로 RF의 확률 적 측면이 더 큰 변형을 유발할 수 있기 때문에 거의 최적화되지 않습니다.


7

나무 의 수가 클수록 클수록 좋습니다.

시도한 속성의 수 는 다릅니다. 정보가 기능에 확산되거나 확산되지 않는 방식에 대한 사전 지식이 이미있는 경우 많은 기능이 정보를 공유하면 해당 매개 변수의 값이 작을수록 더 나은 결과를 얻을 수 있습니다. 반면에 소수의 기능 만 정보를 전달하는 경우 더 큰 값을 사용해야합니다. 다시 말해, 관련 변수가 많을수록 : 더 작은 값이 더 좋고 관련이없는 변수가 더 많을수록 : 더 큰 값이 더 좋습니다.


1
시도한 속성의 수에 대한 귀하의 주장이 합리적이지만 이에 대한 인용이 있습니까?
James Owers

이 논문 ( github.com/glouppe/phd-thesis)과이 논문을 읽는 것이 좋습니다 : orbi.ulg.ac.be/handle/2268/25737
0asa
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.