15 의사 결정 트리와 관련된 두 가지 질문이 있습니다. 연속 속성이있는 경우 분할 값을 어떻게 선택합니까? 예 : 나이 = (20,29,50,40 ....) R에 값 이있는 연속 속성 가 있다고 가정하십시오 . f 를 v로 나눌 때 f > v에 대한 최소 게인을 갖기 위해 분할 점 v 를 찾는 알고리즘을 어떻게 작성할 수 있습니까?ffRRvvffvvf>vf>V classification data decision-trees — 월리 벨리 아 소스
18 ( 20 , 29 , 40 , 50 )(20,29,40,50)( 24.5 , 34.5 , 45 )(24.5,34.5,45) 서로 다른 클래스의 예제 사이에있는 분리 점 만 확인하면 계산 시간을 절약 할 수 있습니다. 이러한 분리 만 정보 획득에 최적 일 수 있기 때문입니다. — Timleathart 소스 @timleathart OP는 R의 구현을 "스푼 피드"할 것으로 기대합니다. OP가 R 구현과 관련하여 지금까지 시도한 것이 무엇인지 궁금합니다. "어려운 노력을 보여", 어때요? — mnm @timleathart이지만 귀속 f에 대해 정상 우리는 f> v에 대해 가장 큰 정보 이득을 제공하는 split v를 선택하지만 여기서 최소 이득을 요구 한 질문을 살펴보십시오. — WALID BELRHALMIA @timleathart, 더 설명해 주시겠습니까? 이러한 분할을 식별하는 가장 최적화 된 방법을 알고 정보 획득을 확인해야합니다. 하나의 변수에 많은 변형이 있고 다른 변수는 거의 일정하다고 가정 해 봅시다. 그러한 분열이 몇 개나 있어야합니까? — Arpit Sisodia @timeleathart, 응답을 확장하면 값이 (20,21,22,23, 45,67,80) 인 경우이 분할이 최적화되지 않습니다. 최소 반복에서 최대 반복을 사용할 수 있습니까? 내 가정이 틀렸다면 저를 바로 잡으십시오 :) — Arpit Sisodia 이것은 나의 혼란을 명확히한다! — 진화 왕