랜덤 포레스트 (RF)는 경쟁적인 데이터 모델링 / 마이닝 방법입니다.
RF 모델에는 출력 / 예측 변수라는 하나의 출력이 있습니다.
RF를 사용하여 여러 출력을 모델링하는 순진한 접근 방식은 각 출력 변수에 대해 RF를 구성하는 것입니다. 따라서 우리는 N 개의 독립적 인 모델을 가지고 있으며, 출력 변수 사이에 상관 관계가있는 경우 중복 / 중복 모델 구조를 갖게됩니다. 실제로 이것은 매우 낭비가 될 수 있습니다. 또한 일반적으로 더 많은 모델 변수는 더 많은 과적 합 모델을 의미합니다 (일반화가 적음). 이것이 여기에 적용되는지 확실하지 않지만 아마도 적용됩니다.
원칙적으로 여러 개의 출력을 가진 RF를 가질 수 있습니다. 예측 변수는 이제 벡터 (n- 튜플)입니다. 각 의사 결정 트리의 의사 결정 노드는 이제 임계 값 벡터를 기반으로 대상 / 예측 벡터 세트를 분할하고 있습니다.이 임계 값은 n 차원 공간의 평면으로 간주되므로 임계 값의 어느 쪽을 결정할 수 있습니다 각 대상 벡터가 켜져 있습니다.
결정 분할의 각 변에 대한 최적 예측 값은 각 변의 벡터에 대해 계산 된 평균 (중심)입니다.
단일 변수로 작업 할 때 최적의 분리 점을 찾는 것은 간단하고 계산 속도가 빠르며 효율적입니다. n- 튜플의 경우 최적 분할을 찾을 수 없지만 (또는 적어도 N이 증가함에 따라 계산 상으로는 불가능 해짐) Monte Carlo 유형 방법 (또는 Monte Carlo와 local의 일부 하이브리드를 사용하여 거의 최적 분할을 찾을 수 있음) 그라디언트 순회).
이것이 실제로 작동합니까? 즉, 일반화하지 않고 훈련 쌍을 매핑합니까? 이 기술은 이미 다른 이름으로 존재합니까?
RBM (Restricted Boltzmann Machines) 및 Deep Belief Networks와 같은 신경망과의 관계를 고려할 수도 있습니다.