작은 n, 큰 p 문제에서 트리 기반 앙상블 방법으로 제한합니까?


10

랜덤 포레스트 (Random Forest)와 같은 트리 기반 앙상블 방법 및 후속 파생물 (예 : 조건부 포레스트)은 모두 상대적 변수의 중요성을 식별하기 위해 소위 "작은 n , 큰 p "문제에 유용 할 수 있습니다 . 실제로, 이것은 사실 인 것처럼 보이지만 내 질문은이 능력을 얼마나 멀리 가질 수 있습니까? 30 개의 관측치와 100 개의 변수를 가질 수 있습니까? 그러한 접근 방식의 주요 요점은 무엇이며 존재하는 적절한 경험 법칙이 있습니까? 시뮬레이션 또는 실제 데이터 세트를 사용하여 실제 증거 (추정이 아님)에 대한 링크로 뒷받침되는 답변을 선호하고 수락 합니다. 나는 후자를 많이 찾지 못했습니다 ( 여기여기)), 생각 / 조언 / (주제) 참조 제안이 가장 환영합니다!

답변:


3

일부 시뮬레이션 연구가 수행 될 때까지이 질문에 대한 명확한 답이 없을 것으로 생각됩니다. 그 동안 Genuer et al의 Random Forests를 발견했습니다 . 방법론에 대한 통찰력 은 최소한 다양한 "low n, high p"데이터 세트에 대해 RF를 테스트하는 관점에서이 질문에 대한 관점을 제시하는 데 도움이되었습니다. 이러한 데이터 세트 중 일부에는> 5000 이상의 예측 변수와 <100 개의 관측치가 있습니다 !!


3

발생할 수있는 실패 모드는 충분한 임의의 기능을 사용하면 각 트리에 사용 된 봉지 샘플 내의 대상과 관련이 있지만 더 큰 데이터 세트에는없는 기능이 존재한다는 것입니다. 여러 테스트에서 볼 수있는 것과 유사한 문제입니다.

이것이 발생하는 정확한 지점은 노이즈의 양과 데이터의 신호 강도에 달려 있기 때문에이를위한 경험 법칙은 개발하기 어렵다. 또한 여러 테스트 수정 p- 값을 분할 기준으로 사용하여 변수 중요도 및 / 또는 실제 중요도를 무작위로 치환하여 생성 된 인공 대비 기능과 기능 중요도를 비교하여 기능 중요도를 비교하여 기능 선택 단계를 수행함으로써이를 해결하는 방법이 있습니다. 분할 선택 및 기타 방법을 검증하기위한 백 케이스 이것들은 매우 효과적 일 수 있습니다.

~ 1000 건과 30,000-1,000,000 개의 특징을 가진 데이터 세트에서 임의의 포리스트 (위의 방법 론적 조정을 포함하여)를 사용했습니다. (다양한 기능 선택 또는 엔지니어링 수준의 인간 유전학 데이터 세트). 그것들은 확실히 그러한 데이터에서 강한 신호 (또는 배치 효과)를 복구하는 데 효과적 일 수 있지만 무작위 변이가 각 신호를 극복하므로 이질적인 원인이있는 질병과 같은 것을 잘 연결하지는 않습니다.


0

또한 데이터의 신호 및 노이즈에 따라 다릅니다. 종속 변수가 모델의 변수 조합으로 잘 설명되어 있다면 n / p 비율이 낮을 때 벗어날 수 있다고 생각합니다.

나는 단지 비율과는 다른 적절한 모델을 얻기 위해 절대 최소 수 n이 필요할 것으로 생각합니다.

그것을 보는 한 가지 방법은 각 트리가 약 SQRT (p) 변수를 사용하여 빌드되고 그 수가 많고 점 수가 많은 경우 실제로 실제 모델을 갖지 않고도 작은 나무를 장착 할 수 있다는 것입니다. 따라서 그러한 과적 응 된 나무들 중 많은 것이 잘못된 변수의 중요성을 줄 것입니다.

일반적으로 변수 중요도 차트에서 거의 동일한 수준의 중요도를 가진 많은 최상위 변수가 표시되면 노이즈가 발생한다고 결론 내립니다.


SQRT (p)는 어디에서 왔습니까?
LauriK

RandomForest에서 각 트리는 변수 샘플을 사용하여 빌드됩니다. 기본적으로 (R randomForest 패키지에서 가장 작음) 걸리는 값은 SQRT (p)보다 작거나 같은 가장 가까운 수입니다. 여기서 p는 열 수입니다.
DeepakML
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.