나는 임의의 숲에 익숙하지 않아서 여전히 몇 가지 기본 개념으로 어려움을 겪고 있습니다.
선형 회귀 분석에서 우리는 독립적 인 관찰, 일정한 분산을 가정합니다…
- 랜덤 포레스트를 사용할 때 우리가 만드는 기본 가정 / 가설은 무엇입니까?
- 모델 가정 측면에서 임의의 포리스트와 순진 베이 사이의 주요 차이점은 무엇입니까?
나는 임의의 숲에 익숙하지 않아서 여전히 몇 가지 기본 개념으로 어려움을 겪고 있습니다.
선형 회귀 분석에서 우리는 독립적 인 관찰, 일정한 분산을 가정합니다…
답변:
아주 좋은 질문 감사합니다! 나는 그 뒤에 내 직관을 제공하려고 노력할 것입니다.
이를 이해하기 위해 임의 포리스트 분류기의 "성분"을 기억하십시오 (일부 수정이 있지만 이것이 일반적인 파이프 라인입니다).
첫 번째 점을 가정하십시오. 최상의 분할을 찾는 것이 항상 가능한 것은 아닙니다. 예를 들어 다음 데이터 세트에서 각 분할은 정확히 하나의 잘못 분류 된 객체를 제공합니다.
그리고 실제로이 점이 혼란 스러울 수 있다고 생각합니다. 실제로 개별 분할의 동작은 Naive Bayes 분류 자의 동작과 비슷합니다. 변수가 종속적 인 경우 의사 결정 트리에 대한 더 나은 분할이 없으며 Naive Bayes 분류기도 실패합니다 (독립적으로 말하면 독립 변수는 Naive Bayes 분류기에서 만드는 주요 가정이며 다른 모든 가정은 선택한 확률 모델에서 비롯됩니다).
그러나 의사 결정 트리의 큰 장점은 다음 과 같습니다. 우리는 모든 분할 을 취하고 계속 분할합니다. 그리고 다음 분할에서 우리는 완벽한 분리 (빨간색)를 찾을 것입니다.
그리고 우리는 확률 론적 모델이없고 단지 이진 분할이기 때문에 전혀 가정 할 필요가 없습니다.
그것은 의사 결정 트리에 관한 것이지만 무작위 숲에도 적용됩니다. 차이점은 Random Forest의 경우 부트 스트랩 집계를 사용한다는 것입니다. 아래에 모델이 없으며, 의존하는 유일한 가정은 샘플링이 대표적이라는 것 입니다. 그러나 이것은 일반적으로 일반적인 가정입니다. 예를 들어 한 클래스가 두 개의 구성 요소로 구성되어 있고 데이터 집합에서 한 구성 요소는 100 샘플로 표시되고 다른 구성 요소는 1 샘플로 표시됩니다. 대부분의 개별 의사 결정 트리는 첫 번째 구성 요소 만보고 임의 포리스트는 두 번째 구성 요소를 잘못 분류합니다. .
좀 더 이해하기를 바랍니다.
2010 년 한 논문에서 저자들은 랜덤 포레스트 모델이 변수가 다차원 통계 공간에서 다중 동일 선상에있을 때 변수의 중요성을 신뢰할 수 없게 추정했다고 문서화했습니다. 임의 포리스트 모델을 실행하기 전에 일반적으로이를 확인합니다.