랜덤 포레스트는 매우 작은 데이터 세트에 적합합니까?


13

24 행의 월간 데이터로 구성된 데이터 세트가 있습니다. 특징은 GDP, 공항 도착, 월 및 기타 몇 가지입니다. 종속 변수는 인기있는 관광 목적지를 찾는 방문자 수입니다. 랜덤 포레스트가 그러한 문제에 적합할까요?

데이터가 공개되지 않아 샘플을 게시 할 수 없습니다.


일반적으로 임의 포리스트에 대한 한 가지 제한은 기능 수가 상당히 커야한다는 것입니다. RF의 첫 번째 단계는 1 / 3n 또는 sqrt (n) 기능을 선택하여 트리를 구성하는 것입니다 (작업, 회귀 / 분류에 따라 다름). 따라서 많은 기능이있는 경우 작은 데이터 세트에서도 RF를 사용하십시오. 작은 데이터 세트에서 실제로 잘 작동하는 알고리즘이 없으므로 아무것도 풀지 않습니다.
독일 Demidov

당신은 낮은 범위에 있습니다. RF는 작동하지만 원시 데이터를 주연으로 인식 할 수있는 것보다 훨씬 더 복잡한 것을 배우지 못할 것입니다. 데이터의 노이즈가 매우 적 으면 도움이됩니다. 40-50 샘플에서 점점 좋아지기 시작합니다. 500 좋아요 5000 최고.
Soren Havelund Welling

회귀의 경우 가능한 트리 깊이는 minnode = 5에 의해 제한되므로 샘플은 평균 2 배 이상 분할되지 않습니다 [[24-> (1) 12-> (2) 6]] mtry 제한을 포함하여 모델은 상호 작용 효과 또는 단순한 비선형 효과를 캡처하는 데 어려움을 겪습니다. minnode와 mtry로 바이올린을 피울 수는 있지만 실제로 데이터가 잡음이 적은 경우에만 그렇게해야합니다. 적합하지 않은 결론은 반전이 될 것입니다. 모델 구조를 대략적으로 매끄럽게 한 단계 함수처럼 보이게됩니다.
Soren Havelund Welling


작은 데이터 세트의 경우 교차 검증 기술을 사용하십시오. 자세한 내용은 stats.stackexchange.com/questions/19048/…
Asif Khan

답변:


4

랜덤 포레스트 는 기본적으로 샘플에 대한 부트 스트랩 리샘플링 및 교육 결정 트리이므로 질문에 대한 답은이 두 가지를 해결해야합니다.

부트 스트랩 리샘플링작은 샘플의 치료법아닙니다 . 데이터 집합에 24 개의 관측치가있는 경우이 데이터를 대체하여 얻은 각 표본은 24 개의 고유 값으로 구성되지 않습니다. 사례를 섞고 일부를 그리지 않으면 기본 분포에 대해 새로운 것을 배우는 능력에 대해서는 크게 변하지 않을 것입니다. 따라서 작은 샘플 부트 스트랩의 문제입니다.

의사 결정 트리는 예측 변수에 대해 데이터를 조건부로 한 번에 한 변수 씩 분할하여 가장 큰 식별력을 갖는 서브 샘플을 찾아서 학습합니다. 24 개의 사례 만있는 경우 운이 좋고 모든 스플릿의 크기가 짝수 인 경우 2 개의 스플릿을 사용하면 트리 스플릿, 8 개 그룹 3 개로 구성된 6 개 케이스 4 개 그룹으로 끝납니다. 표본에 대해 조건부 평균을 계산 한 경우 (회귀 트리의 연속 값 또는 결정 트리의 조건부 확률을 예측하기 위해) 소수의 경우에만 결론을 내립니다! 따라서 결정을 내리는 데 사용할 하위 샘플은 원래 데이터보다 훨씬 작습니다.

작은 샘플의 경우 일반적으로 간단한 방법사용하는 것이 좋습니다 . 또한 베이지안 설정에서 유익한 사전 정보를 사용하여 (문제에 대한 합리적인 데이터 외부 지식이있는 경우) 작은 표본을 포착 할 수 있으므로 맞춤형 베이지안 모델 사용을 고려할 수 있습니다.


1

한편으로 이것은 작은 데이터 세트이며 임의의 포리스트는 데이터가 부족합니다.

반면에, 아무것도 아닌 것보다 낫습니다. "시도하고 봐라"보다 더 할 말이 없습니다. 특정 모델이 "좋은지"여부를 결정하게됩니다. 또한, 우리는 어떤 모델이 특정 목적에 적합한 지 여부를 알 수 없습니다 (우리가 틀리면 비용이 들지 않습니다!)

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.