의사 결정 트리와 관련하여 예측 값이 교육 데이터 범위를 벗어날 수 있습니까?
예를 들어, 대상 변수의 학습 데이터 세트 범위가 0-100 인 경우 모델을 생성하고 다른 것으로 적용 할 때 내 값은 -5 일 수 있습니까? 또는 150?
의사 결정 트리 회귀에 대한 나의 이해는 여전히 규칙 기반입니다-왼쪽 / 오른쪽 진행이며 훈련 세트의 트리 하단에서 특정 범위를 벗어난 값을 볼 수 없다는 점을 감안할 때 결코 그것을 예측?
의사 결정 트리와 관련하여 예측 값이 교육 데이터 범위를 벗어날 수 있습니까?
예를 들어, 대상 변수의 학습 데이터 세트 범위가 0-100 인 경우 모델을 생성하고 다른 것으로 적용 할 때 내 값은 -5 일 수 있습니까? 또는 150?
의사 결정 트리 회귀에 대한 나의 이해는 여전히 규칙 기반입니다-왼쪽 / 오른쪽 진행이며 훈련 세트의 트리 하단에서 특정 범위를 벗어난 값을 볼 수 없다는 점을 감안할 때 결코 그것을 예측?
답변:
당신은 완전히 옳습니다. 고전적인 의사 결정 트리는 역사적으로 관찰 된 범위 밖의 값을 예측할 수 없습니다 . 그들은 외삽하지 않을 것입니다.
임의의 포리스트에도 동일하게 적용됩니다.
이론적으로, 때로는 좀 더 정교한 아키텍처 (botanies?)에 대한 논의를 볼 수 있는데, 여기에서 나무의 잎은 단일 값을 제공하지 않지만 특정 수치 독립 변수에 대한 종속 변수를 회귀 하는 간단한 회귀를 포함 합니다. 트리를 탐색하면 어떤 경우에 IV를 회귀 분석 할 숫자 IV에 대한 규칙 세트가 제공됩니다. 이러한 경우,이 "하단 레벨"회귀는 아직 관측되지 않은 값을 산출하기 위해 추정 될 수 있습니다.
그러나 표준 기계 학습 라이브러리가 다소 복잡한 구조를 제공하지는 않는다고 생각합니다 (최근에 R에 대한 CRAN 작업 뷰를 통해 이것을 찾았습니다). 나뭇잎에 회귀가 포함 된 자체 트리를 구현할 수 있습니다.
mobForest
partykit