임의의 숲 나무에 가지 치기가 필요하지 않은 이유는 무엇입니까?


20

Breiman은 나무가 가지 치기없이 자라고 있다고 말합니다. 왜? 무작위 숲의 나무가 가지 치지 않는 확실한 이유가 있어야한다고 말하고 싶습니다. 반면에 과도한 피팅을 피하기 위해 단일 의사 결정 트리를 제거하는 것이 매우 중요합니다. 이런 이유로 읽을 수있는 문헌이 있습니까? 물론 나무는 서로 연관되어 있지 않을 수 있지만 여전히 적합치가 높아질 수 있습니다.


여기 문맥에 대해 더 많이 말해야합니다. @ChrisA. 퀀 드라이에 대해 많이 알기가 어렵 기 때문에 질문에 실제로 답변했는지 알기가 어렵습니다.
gung-복직 모니카

2
더 말할 필요가 있습니까? 문제는 매우 분명합니다.
Seanosapien

답변:


20

대략적으로 말하면 단일 트리에서 발생할 수있는 잠재적 인 과적 합 (일반적으로 가지 치기를하는 이유)은 랜덤 포레스트에서 두 가지로 완화됩니다.

  1. 개별 트리를 학습하는 데 사용 된 샘플이 "부트 스트랩"됩니다.
  2. 임의의 기능을 사용하는 수많은 임의의 나무가 있으므로 개별 나무는 강력하지만 서로 관련이 없습니다.

편집 : 아래의 OP 의견에 따라 :

여전히 과적 합 가능성이 여전히 있습니다. Breiman의 "포장"동기와 Efron 및 Tibshirani의 "부트 스트랩"동기에 대해 기사를 읽어보십시오. 2까지 Brieman은 개별 분류기의 트리 강도 및 반 상관과 관련된 일반화 오류에 대한 느슨한 한계를 도출했습니다. 아무도 바운드를 사용하지는 않지만 (앙상블) 앙상블 방법에서 일반화 오류를 줄이는 데 도움이되는 것에 대한 직감을 제공합니다. 이것은 Random Forests 논문 자체에 있습니다. 내 게시물은 이러한 독서와 내 경험 / 공제를 바탕으로 올바른 방향으로 당신을 밀어주는 것이 었습니다.

  • Breiman, L., Bagging Predictors, Machine Learning, 24 (2), pp.123-140, 1996.
  • 에프론, B .; Tibshirani, R. (1993). 부트 스트랩 소개. 보카 레이턴, 플로리다
  • 레오, Breiman (2001). "임의의 숲". 머신 러닝 45 (1) : 5–32.

그러나 여전히 과적 합 가능성이있을 수 있습니다. 이 기사를 인용하여 읽을 수 있습니까?
Z Khan

@Z 칸 당신은 아마이 Z 칸 입니까? 그렇다면 계정을 병합 할 수 있도록 알려주십시오.
whuber

3
@ZKhan RFs의 과적 합 문제는 Hastie et al, (2009) Elements of Statistical Learning, 2nd Edition 에서 다룹니다 . 웹 사이트에서 책에 대한 무료 PDF를 이용할 수 있습니다. 임의의 숲에 대한 장을 확인하십시오.
복원 Monica Monica-G. Simpson
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.