답변:
인용의 특정 언어에 대해 생각할 때, 가죽공은 다중 도구입니다. 단지 기즈모가 많은 단일 하드웨어입니다. 펜치, 나이프, 드라이버 등이 있습니다! 가죽공은 각각의 도구를 개별적으로 휴대 할 필요없이 바지에 집어 넣어 항상 손에 넣을 수있는 단일 품목입니다. 이 방법은 편리 하지만 각 구성 요소 도구가 최상의 성능 을 발휘 하지 못한다 는 단점이 있습니다. 캔 오프너는 사용하기 어렵고 드라이버 비트는 일반적으로 잘못된 크기이며 나이프는 휘파람 이상을 거의 달성 할 수 없습니다. 이러한 작업을 수행하는 것이 중요한 경우 실제 나이프, 실제 드라이버 또는 실제 펜치 등 특수 도구를 사용하는 것이 좋습니다.
임의의 포리스트는 같은 용어로 생각할 수 있습니다. 임의 포리스트는 다양한 데이터 세트에서 강력한 결과를 생성하며 튜닝 매개 변수에 매우 민감하지 않습니다. 그러나 완벽하지 않습니다. 문제에 대해 더 많이 알수록 특정 문제를 수용 할 수있는 특수 모델을 더 쉽게 구축 할 수 있습니다.
임의의 숲이 어려움을 겪는 몇 가지 명백한 경우가 있습니다.
희소성 -데이터가 매우 희소 한 경우 일부 노드의 경우 부트 스트랩 된 샘플과 임의의 기능 하위 집합이 협력하여 가변적 기능 공간을 생성 할 가능성이 매우 높습니다. 생산적인 분할이 없기 때문에이 노드의 자식이 전혀 도움이되지 않을 것입니다. XGBoost는이 상황에서 더 잘할 수 있습니다.
데이터가 축 정렬되지 않음 -두 피처 과 의 공간에 대각선 결정 경계가 있다고 가정합니다 . 이것이 데이터와 관련이있는 유일한 차원이더라도 해당 대각선 경계를 설명하기 위해 많은 수의 분할 된 일반 랜덤 포레스트 모델이 필요합니다. 이는 각 분할이 또는 축에 수직으로 향하기 때문 입니다. (일반적인 랜덤 포레스트 모델은 x 1 > 4 형식으로 분할되기 때문에 직관적이어야합니다..) 각 분할에 대해 선택된 기능의 서브 세트에 대해 PCA 투영을 수행하는 회전 포레스트는이를 극복하기 위해 사용될 수 있습니다. 더 이상 원래 기준으로 축 정렬되지 않습니다.
이 이미지는 축 정렬 분할이 임의 포리스트 결정에 영향을주는 방식의 다른 예를 제공합니다. 결정 경계는 원점의 원이지만이 특정 임의 포리스트 모델은 원을 근사하기위한 상자를 그립니다. 이 경계를 개선하기 위해 할 수있는 일이 많이 있습니다. 가장 간단한 방법은 더 많은 데이터를 수집하고 더 많은 나무를 만드는 것입니다.
날카로운 모서리. 정확성.
그들은 확산 방법을 사용합니다. 그들은 울퉁불퉁 한 것들에 잘 맞습니다. 샘플 크기가 작을 때는 정교하고 세밀한 부분에 적합하지 않습니다. 나는 그들이 다변량 시계열 데이터에 대해 잘하지 않는다고 상상할 것입니다. 여기의 무언가가 저기 저 거리의 것에 의존 할 때.
그라디언트 향상 포리스트는 적합하거나 지나치게 적합 할 수 있지만 동일한 데이터에 대해 오류가 크게 줄어 듭니다.
" 가죽 "은 존재하지 않습니다. "은 총알"이 없습니다. 툴박스가 있습니다. 당신의 도구를 알고, 잘 돌봐주십시오. 특히 도구 상자에 조밀 한 라이브러리가없는 경우 "해머 인 경우 모든 문제가 못처럼 보인다"는 것에주의하십시오.
문제를 잘 알기 전까지는 어떤 것이라도 문제를 해결하거나 좋아하는 도구로 해결할 수 있다고 상상하기 쉽습니다. 지혜는 문제를 깊이 이해하고 도구에 익숙해지는 것이 좋습니다.
추가 : 다른 것을 사용할 충분한 컴퓨팅 리소스 또는 시간 여유가있는 경우. RF는 훈련 속도가 빠를뿐만 아니라 실행 속도도 빠릅니다. 매우 깊은 부스트 구조는 그보다 적습니다. 이를 지원하려면 오버 헤드가 있어야합니다.
이것은 실제로 질문에 대답하는 첫 번째 사례이므로 질문에 답장하지 마십시오 ..하지만 질문에 대답 할 수 있다고 생각합니다.
실제로 모델 성능에만 관심이 있고 해석 가능성과 같은 것이 아닌 경우 임의 포리스트는 실제로 매우 좋은 학습 알고리즘이지만 다음과 같은 경우에는 약간 더 나빠집니다.
1.) 훈련 샘플 수와 관련하여 차원 (피처 수)이 매우 높을 경우 규칙적인 선형 회귀 또는 SVM이 더 좋습니다.
2.) 컴퓨터 비전 문제와 같이 데이터에 더 높은 차수의 표현 / 컨볼 루션 구조가있는 경우. 이러한 컴퓨터 비전 사례에서 컨볼 루션 신경망은 임의의 포리스트보다 성능이 우수합니다 (일반적으로 지식이 있으면 더 나은 학습에 통합 할 수 있습니다).
무작위 숲은 아주 좋은 출발점이라고합니다. 제가 머신 러닝 기술을 좋아하는 사람 중 하나는 항상 임의의 숲과 규칙적인 선형 회귀를 배우는 것으로 시작합니다.
그러나 최고의 성능을 원한다면 요즘 신경망이라고도합니다. 딥 러닝은 매우 매력적인 접근법으로 보입니다. Kaggle과 같은 데이터 챌린지 웹 사이트에서 점점 더 많은 우승자가 경쟁을 위해 딥 러닝 모델을 사용합니다. 신경 네트워크의 또 다른 전문가는 매우 많은 수의 샘플을 처리 할 수 있다는 것입니다 (> 10 ^ 6 하나는 확률 적 경사 하강을 사용하여 한 번에 약간의 데이터를 공급하여 훈련 할 수 있음). 개인적으로 저는 이것이 딥 러닝에있어 매우 매력적인 전문가라고 생각합니다.
우선 랜덤 포리스트는 다음 데이터 형식에 적용 할 수 없습니다.
테이블 형식 데이터 형식의 경우 다음과 같은 이유로 항상 임의 포리스트를 확인하는 것이 좋습니다.