임의 포리스트 트리에 대한 더 나은 비용 함수 인 Gini 인덱스 또는 엔트로피는 무엇입니까?


12

임의 포리스트 트리에 대한 더 나은 비용 함수 인 Gini 인덱스 또는 엔트로피는 무엇입니까?

Clojure에서 임의의 포리스트를 구현하려고합니다.

답변:


9

내가 Tan 등의 데이터 마이닝 소개에서 찾은 것처럼. 알 :

연구에 따르면 불순물 측정의 선택은 의사 결정 트리 유도 알고리즘의 성능에 거의 영향을 미치지 않습니다. 이것은 많은 불순물 측정이 서로 상당히 일관성이 있기 때문입니다 [...]. 실제로, 나무를 가지 치기 위해 사용 된 전략은 불순물 측정의 선택보다 최종 나무에 더 큰 영향을 미칩니다.

따라서 CART와 같은 Gini 인덱스 또는 C4.5와 같은 Entropy를 사용하도록 선택할 수 있습니다.

엔트로피,보다 구체적으로 C4.5의 게인 비율을 사용합니다. Quinlan의 잘 작성된 책 : 기계 학습을위한 C4.5 프로그램을 쉽게 따라갈 수 있기 때문입니다.


3
약간의 언급-엔트로피는 로그를 사용하므로 계산 시간 문제가 될 수 있습니다.

8
그 말은 임의의 숲이 아니라 순수한 결정 트리에 관한 것입니다. 가장 좋은 나무를 만들려고하지 않기 때문에 일반적으로 임의의 숲에서 나무를 자르지 않습니다. 따라서 가지 치기 또는 불순물 측정과 같이 더 중요한 것에 대해 이야기하는 것은 잘못된 것 같습니다. 목표는 임의의 숲과 함께 사용할 최상의 나무를 찾는 것입니다.
찬찬 호
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.