의사 결정 트리에서 연속 변수에 대해 분리 점이 어떻게 선택됩니까?


15

의사 결정 트리와 관련된 두 가지 질문이 있습니다.

  1. 연속 속성이있는 경우 분할 값을 어떻게 선택합니까?

    예 : 나이 = (20,29,50,40 ....)

  2. R에 값 이있는 연속 속성 가 있다고 가정하십시오 . fv로 나눌 때 f > v에 대한 최소 게인을 갖기 위해 분할 점 v 를 찾는 알고리즘을 어떻게 작성할 수 있습니까?fRvfvf>V

답변:


18

(20,29,40,50)(24.5,34.5,45)

서로 다른 클래스의 예제 사이에있는 분리 점 만 확인하면 계산 시간을 절약 할 수 있습니다. 이러한 분리 만 정보 획득에 최적 일 수 있기 때문입니다.


@timleathart OP는 R의 구현을 "스푼 피드"할 것으로 기대합니다. OP가 R 구현과 관련하여 지금까지 시도한 것이 무엇인지 궁금합니다. "어려운 노력을 보여", 어때요?
mnm

@timleathart이지만 귀속 f에 대해 정상 우리는 f> v에 대해 가장 큰 정보 이득을 제공하는 split v를 선택하지만 여기서 최소 이득을 요구 한 질문을 살펴보십시오.
WALID BELRHALMIA

@timleathart, 더 설명해 주시겠습니까? 이러한 분할을 식별하는 가장 최적화 된 방법을 알고 정보 획득을 확인해야합니다. 하나의 변수에 많은 변형이 있고 다른 변수는 거의 일정하다고 가정 해 봅시다. 그러한 분열이 몇 개나 있어야합니까?
Arpit Sisodia

@timeleathart, 응답을 확장하면 값이 (20,21,22,23, 45,67,80) 인 경우이 분할이 최적화되지 않습니다. 최소 반복에서 최대 반복을 사용할 수 있습니까? 내 가정이 틀렸다면 저를 바로 잡으십시오 :)
Arpit Sisodia

이것은 나의 혼란을 명확히한다!
진화 왕
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.