임의의 숲 가정


43

나는 임의의 숲에 익숙하지 않아서 여전히 몇 가지 기본 개념으로 어려움을 겪고 있습니다.
선형 회귀 분석에서 우리는 독립적 인 관찰, 일정한 분산을 가정합니다…

  • 랜덤 포레스트를 사용할 때 우리가 만드는 기본 가정 / 가설은 무엇입니까?
  • 모델 가정 측면에서 임의의 포리스트와 순진 베이 사이의 주요 차이점은 무엇입니까?

답변:


33

아주 좋은 질문 감사합니다! 나는 그 뒤에 내 직관을 제공하려고 노력할 것입니다.

이를 이해하기 위해 임의 포리스트 분류기의 "성분"을 기억하십시오 (일부 수정이 있지만 이것이 일반적인 파이프 라인입니다).

  1. 개별 트리를 구축하는 각 단계에서 최상의 데이터 분할 을 찾습니다.
  2. 트리를 구축 할 때 전체 데이터 세트가 아니라 부트 스트랩 샘플을 사용합니다
  3. 우리는 평균적으로 개별 트리 출력을 집계합니다 (실제로 2와 3은보다 일반적인 포장 절차를 의미 합니다 ).

첫 번째 점을 가정하십시오. 최상의 분할을 찾는 것이 항상 가능한 것은 아닙니다. 예를 들어 다음 데이터 세트에서 각 분할은 정확히 하나의 잘못 분류 된 객체를 제공합니다. 최상의 분할이없는 데이터 세트의 예

그리고 실제로이 점이 혼란 스러울 수 있다고 생각합니다. 실제로 개별 분할의 동작은 Naive Bayes 분류 자의 동작과 비슷합니다. 변수가 종속적 인 경우 의사 결정 트리에 대한 더 나은 분할이 없으며 Naive Bayes 분류기도 실패합니다 (독립적으로 말하면 독립 변수는 Naive Bayes 분류기에서 만드는 주요 가정이며 다른 모든 가정은 선택한 확률 모델에서 비롯됩니다).

그러나 의사 결정 트리의 큰 장점은 다음 과 같습니다. 우리는 모든 분할 을 취하고 계속 분할합니다. 그리고 다음 분할에서 우리는 완벽한 분리 (빨간색)를 찾을 것입니다. 결정 경계의 예

그리고 우리는 확률 론적 모델이없고 단지 이진 분할이기 때문에 전혀 가정 할 필요가 없습니다.

그것은 의사 결정 트리에 관한 것이지만 무작위 숲에도 적용됩니다. 차이점은 Random Forest의 경우 부트 스트랩 집계를 사용한다는 것입니다. 아래에 모델이 없으며, 의존하는 유일한 가정은 샘플링이 대표적이라는 것 입니다. 그러나 이것은 일반적으로 일반적인 가정입니다. 예를 들어 한 클래스가 두 개의 구성 요소로 구성되어 있고 데이터 집합에서 한 구성 요소는 100 샘플로 표시되고 다른 구성 요소는 1 샘플로 표시됩니다. 대부분의 개별 의사 결정 트리는 첫 번째 구성 요소 만보고 임의 포리스트는 두 번째 구성 요소를 잘못 분류합니다. . 약하게 표현 된 두 번째 구성 요소의 예

좀 더 이해하기를 바랍니다.


10

2010 년 한 논문에서 저자들은 랜덤 포레스트 모델이 변수가 다차원 통계 공간에서 다중 동일 선상에있을 때 변수의 중요성을 신뢰할 수 없게 추정했다고 문서화했습니다. 임의 포리스트 모델을 실행하기 전에 일반적으로이를 확인합니다.

http://www.esajournals.org/doi/abs/10.1890/08-0879.1


3
당신은 머신 러닝 알고리즘의 주제에 대해 머신 러닝의 버클리 저자들보다 콜로라도 주 저자들이 저술 한 생태학에서 "옐로 스톤 국립 공원에서 가로 유전학을 정량화하는 Bufo boreas 연결성"의 결론을 믿습니까?
Hack-R

8
나는 그들이 서로 상충된다고 생각하지 않습니다. Breiman은 다차원 공간에서이 다중 특선의 '특별한 경우'를 조사하지 않았습니다. 또한 콜로라도 주 사람들도 똑똑 할 수 있으며이 사람들도 마찬가지입니다.
Mina
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.