의사 결정 트리 공간과 임의 포리스트의 MCMC 샘플링


11

임의 숲 의 모음입니다 의사 결정 트리 무작위로 (때로는 훈련 데이터를 포기할)와 각 트리를 구축하는 특정 기능을 선택하여 형성했다. 분명히 그들은 잘 배우고 일반화합니다. 의사 결정 트리 공간에 대한 MCMC 샘플링을 수행하거나 임의 포리스트와 비교 한 사람이 있습니까? MCMC를 실행하고 샘플링 된 모든 트리를 저장하는 데 계산 비용이 더 많이들 수 있지만 계산 비용이 아니라이 모델의 이론적 기능에 관심이 있습니다. 내가 의미하는 것은 다음과 같습니다.

  1. 무작위 의사 결정 트리를 구성하십시오 (아마도 끔찍하게 수행 할 것입니다)
  2. 와 같은 나무의 가능성을 계산 하거나 항을 추가하십시오.P P R I O R ( T R E E )P(Tree|Data)P(Data|Tree)Pprior(Tree)
  3. 임의의 단계를 선택하여 트리를 변경하고 가능성 에 따라 선택하십시오 .P(Tree|Data)
  4. 모든 N 단계마다 현재 트리의 사본을 저장하십시오.
  5. N * M 시간이 큰 경우 3으로 돌아갑니다.
  6. M 개의 저장된 트리 모음을 사용하여 예측

랜덤 포리스트와 비슷한 성능을 제공합니까? 여기서는 임의 포리스트와는 달리 어떤 단계에서도 좋은 데이터 나 기능을 버리지 않습니다.


2
이것이 정확히 스케치와 같은 절차인지 확실하지 않지만 BART가 있습니다. 다음은 PDF에
joran

답변:



4

불행하게도, Chipman et al. Bayesian CART 방식에서는 가장 가능성이 높은 나무 만 추출합니다. 그들은 나무를 평균화하려고 시도하지 않았으며 성능을 랜덤 포레스트 및 엑스트라 트리와 비교했습니다.

방금 Chipman의 BART 논문을 읽었습니다. 내가 올바르게 이해한다면, 그것은 m 트리 모음에 대한 K 샘플의 베이지안 평균입니다. 그것은 여러면에서 흥미롭고 정말 좋은 성능을 보입니다. m = '1'인 경우, 후부에서 나오는 1 개의 나무의 K 개 샘플에 대한 간단한 베이지안입니다. 그러나 특정 측면에서 많은 테스트가 수행되지 않았습니다. 그리고 난 여전히 랜덤 포레스트 또는 엑스트라 트리가 실제 베이 즈 모델과 어떻게 비교되는지 알고 싶습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.