출력이 여러 개인 랜덤 포레스트가 가능 / 실용적입니까?


17
  1. 랜덤 포레스트 (RF)는 경쟁적인 데이터 모델링 / 마이닝 방법입니다.

  2. RF 모델에는 출력 / 예측 변수라는 하나의 출력이 있습니다.

  3. RF를 사용하여 여러 출력을 모델링하는 순진한 접근 방식은 각 출력 변수에 대해 RF를 구성하는 것입니다. 따라서 우리는 N 개의 독립적 인 모델을 가지고 있으며, 출력 변수 사이에 상관 관계가있는 경우 중복 / 중복 모델 구조를 갖게됩니다. 실제로 이것은 매우 낭비가 될 수 있습니다. 또한 일반적으로 더 많은 모델 변수는 더 많은 과적 합 모델을 의미합니다 (일반화가 적음). 이것이 여기에 적용되는지 확실하지 않지만 아마도 적용됩니다.

원칙적으로 여러 개의 출력을 가진 RF를 가질 수 있습니다. 예측 변수는 이제 벡터 (n- 튜플)입니다. 각 의사 결정 트리의 의사 결정 노드는 이제 임계 값 벡터를 기반으로 대상 / 예측 벡터 세트를 분할하고 있습니다.이 임계 값은 n 차원 공간의 평면으로 간주되므로 임계 값의 어느 쪽을 결정할 수 있습니다 각 대상 벡터가 켜져 있습니다.

결정 분할의 각 변에 대한 최적 예측 값은 각 변의 벡터에 대해 계산 된 평균 (중심)입니다.

단일 변수로 작업 할 때 최적의 분리 점을 찾는 것은 간단하고 계산 속도가 빠르며 효율적입니다. n- 튜플의 경우 최적 분할을 찾을 수 없지만 (또는 적어도 N이 증가함에 따라 계산 상으로는 불가능 해짐) Monte Carlo 유형 방법 (또는 Monte Carlo와 local의 일부 하이브리드를 사용하여 거의 최적 분할을 찾을 수 있음) 그라디언트 순회).

이것이 실제로 작동합니까? 즉, 일반화하지 않고 훈련 쌍을 매핑합니까? 이 기술은 이미 다른 이름으로 존재합니까?

RBM (Restricted Boltzmann Machines) 및 Deep Belief Networks와 같은 신경망과의 관계를 고려할 수도 있습니다.


인터넷 검색 "다중 라벨 임의 포리스트"는 이것이 몇 가지 뚜렷한 방식으로 수행되었다는 것을 보여줍니다. 어쨌든, 나는 음악 정보 검색 에서이 많은 이진 rfs 접근법을 가지고 놀고 있었고 꽤 잘하고있었습니다.

1
나는 당신 에게이 기사를 제안 할 것 입니다. 그들은 당신이 묘사 한 것에 매우 가까운 것을합니다.
Dmitry Laptev 2016 년

2
파티 패키지 및 다른 패키지 (R 언어)에 이미 존재합니다.
Jase

답변:


8

여러 출력 결정 트리 (및 임의의 포리스트)가 개발 및 게시되었습니다. Pierre Guertz는이 패키지를 배포합니다 ( 다운로드). Segal & Xiao, 다변량 랜덤 포리스트, WIREs Data Mining Knowl Discov 2011 1 80–87, DOI : 10.1002 / widm.12도 참조하십시오. 최신 Scikit-learn 버전에서도이 기능을 지원합니다. 예술의 상태에 대한 좋은 리뷰는 Henrik Linusson의 논문에서 "MULTI-OUTPUT RANDOM FORESTS"라는 제목의 논문에서 찾을 수 있습니다. 각 노드에서 분할을 선택하는 가장 간단한 방법은 출력 변수 중 하나를 무작위로 선택한 다음 분할을 선택하기 위해 일반적인 임의 포리스트 방식을 따르는 것입니다. 각각의 입력 특징 및 출력 변수에 대한 상호 정보 점수의 가중 합에 기초한 다른 방법이 개발되었지만, 무작위 접근법에 비해 상당히 비싸다.


-1

여기에 명시된 바와 같이 :

scikit-learn의 모든 분류기는 기본적으로 멀티 클래스 분류를 수행합니다.

여기에는 랜덤 포레스트가 포함됩니다.

또한 http://scikit-learn.org/stable/modules/tree.html#tree-multioutput 페이지 에서 해당 주제에 대한 많은 참조가 있습니다.


8
확실하게; 문제는 다중 출력 회귀와 관련이 있습니다.
redcalx

죄송합니다 내 대답에 지연을하지만, 예를 들어,뿐만 아니라 이벤트를 다중 출력 회귀를 scikit이 배울 것 같습니다 : scikit-learn.org/stable/auto_examples/tree/... 그리고 어떤 경우에, 하나의 피팅으로 구성 전략이있다 대상 당 회귀 기 이것은 다중 대상 회귀를 기본적으로 지원하지 않는 회귀자를 확장하는 간단한 전략입니다. scikit-learn.org/stable/modules/generated/… HTH
0asa
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.