랜덤 포레스트와 매우 랜덤 화 된 트리의 차이점


38

랜덤 포레스트와 매우 랜덤 화 된 트리는 랜덤 포레스트에있는 트리의 분할이 결정론적인 반면, 매우 랜덤 화 된 트리의 경우에는 랜덤이라는 점에서 차이가 있음을 이해했습니다. 현재 트리에 대해 선택된 변수에서 임의의 균일 분할 중). 그러나 나는 다양한 상황 에서이 다른 분열의 영향을 완전히 이해하지 못합니다.

  • 편향 / 분산 측면에서 어떻게 비교합니까?
  • 관련없는 변수가있을 때 어떻게 비교합니까?
  • 상관 변수가있을 때 어떻게 비교합니까?

2
(a) 때때로 최적 분할이 적어 ERT가 더 편향 될 수 있습니다. (b) 나는 확실하지 않다고 생각한다. (c) 확실하지 않은 것 같습니다. 추가 : 무작위 변수 샘플링으로 인해 RF 결정 론적 분할을 호출하지 않을 것이며 트리는 부트 스트래핑으로 인한 것도 아닙니다.
Soren Havelund Welling

무엇입니까 uniform split?
팔각형

답변:


27

ET (Extra- (Randomized) -Trees) 기사 에는 편향 분산 분석이 포함되어 있습니다. 16 페이지에서 6 가지 테스트 (트리 분류 및 3 가지 회귀)에 대한 RF를 포함한 여러 방법과 비교할 수 있습니다.

두 가지 방법은 거의 동일하며, 많은 수의 노이즈 특징이있을 때 (고차원 데이터 세트에서) ET가 약간 더 나쁩니다.

즉, (아마도 수동) 기능 선택이 거의 최적이면 성능은 거의 동일하지만 ET는 계산 속도가 빠를 수 있습니다.

기사 자체에서 :

알고리즘의 분석과 여러 테스트 문제 변형에 대한 K의 최적 값 결정은 값이 원칙적으로 문제의 특성, 특히 관련없는 속성 의 비율에 의존한다는 것을 보여주었습니다 . [...] 바이어스 / 분산 분석에 따르면 엑스트라 트리는 편차줄이면서 동시에 바이어스를 늘리면 작동합니다 . [...] 무작위 화가 최적 수준 이상으로 증가하면 편차가 약간 감소하는 반면 바이어스는 종종 크게 증가합니다.

언제나처럼은 총알이 없습니다.


Pierre Geurts, Damien Ernst, 루이 웨 헨케 "매우 랜덤 한 나무"


2
잡음이 많은 기능이 많을 때 ET에 관한 언급 (경험적 또는 이론적)이 조금 더 나쁩니 까? 아니면 경험에 기초한 것인가?
ramhiser

1
내 경험상 그 반대가 사실입니다. Extra-Trees는 많은 시끄러운 기능으로 더 좋습니다. 주의해야 할 점은 큰 숲 (많은 견적 자, sklearn의 n_estimators)이 있고 각 분할에서 고려되는 기능 수 (sklearn의 max_features)를 조정해야한다는 것입니다. 하나의 Extra-Tree가 하나의 임의의 포리스트 트리보다 많이 적합하지만 Extra-Tree가 많은 경우 다른 방식으로 과잉 적합하지 않고 과잉 적합하지 않은 경향이 있습니다. 나는 종종 최대 3000 명의 추정량을 크게 향상시킵니다.
denson

3

대답은 그것이 달려 있다는 것입니다. 문제에 임의의 숲과 여분의 나무를 모두 사용해보십시오. 큰 숲 (1000-3000 나무 / 추정자, sklearn의 n_estimators)을 시도하고 분 할당 최소 샘플 (sklearn의 max_features)과 분 할당 최소 샘플 (sklearn의 min_samples_split) 및 최대 나무 깊이 ( sklearn의 max_depth). 즉, 과도 튜닝은 일종의 과적 합이 될 수 있음 을 명심해야합니다 .

여분의 나무가 시끄러운 데이터에 유용한 것으로 입증 된 개인적으로 작업 한 두 가지 문제는 다음과 같습니다.

크고 시끄러운 해저 피처 세트의 기계 학습 분류를위한 의사 결정 포리스트

붙여 넣은 샘플로 효율적인 분산 단백질 장애 예측


2

답변 주셔서 대단히 감사합니다! 여전히 질문이 있었지만,이 두 방법의 동작에 대해 더 많은 통찰력을 얻기 위해 수치 시뮬레이션을 수행했습니다.

  • 여분의 나무는 시끄러운 기능이있을 때 더 높은 성능을 유지하는 것으로 보입니다.

아래 그림은 대상과 관련이없는 임의의 열이 데이터 세트에 추가 될 때의 성능 (교차 검증으로 평가)을 보여줍니다. 대상은 처음 세 열의 선형 조합입니다. 관련없는 변수가 존재하는 임의의 숲 대 추가 나무

  • 모든 변수가 관련되면 두 방법 모두 동일한 성능을 달성하는 것처럼 보입니다.

  • 여분의 나무는 임의의 숲보다 3 배 빠릅니다 (적어도 scikit 학습 구현에서는)

출처

전체 기사 링크 : 임의의 숲 대 추가 나무 .

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.