Gini 불순물 사용시기 및 정보 획득시기는 언제입니까?


11

의사 결정 트리에 Gini 불순물 및 정보 획득을 언제 사용할 수 있는지 설명해 주시겠습니까? 언제 어떤 것을 사용하는 것이 가장 좋은지에 대한 상황 / 예를 들어 주시겠습니까?

답변:


9

매개 변수 조정의 일부로 둘 다 시도해야합니다.

이론적으로 Gini 불순물은 Brier 점수를 최소화하는 반면 엔트로피 / 정보 게인은 로그 손실을 최소화하여 관심있는 사람들이 차이를 만듭니다. 그러나 각각의 가능성과 같은 다른 것들은 일에 영향을 미치는 일 변량에 의해 산만 해지는 대신 탐욕스러운 나무 성장에서 다변량 효과를 발견하는 것입니다. 즉, 항상 "최상의"스플릿을 선택하지 않는 불순물 메트릭에서 더 나은 일반화를 얻을 수 있습니다.

실제로 (rf의 맥락에서 카트보다 더 많은 맥락에서) 엔트로피는 더 복잡한 신호를 맞추려고 노력하는 더 낮은 차원의 데이터 세트에 더 잘 작동한다는 것을 발견했습니다. 잡음이 많은 많은 잠재적 신호 중에서 간단한 신호를 찾으려고 노력합니다. 이것은 단지 내 경험 일 뿐이며 모든 경우에 거의 확실하게 적용되지는 않습니다.

참고 : 주석으로 시작했지만 삭제하여 항목의 확장 형식을 지정하는 답변으로 이동했습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.