의사 결정 트리 및 회귀-예측 값이 교육 데이터 범위를 벗어날 수 있습니까?


11

의사 결정 트리와 관련하여 예측 값이 교육 데이터 범위를 벗어날 수 있습니까?

예를 들어, 대상 변수의 학습 데이터 세트 범위가 0-100 인 경우 모델을 생성하고 다른 것으로 적용 할 때 내 값은 -5 일 수 있습니까? 또는 150?

의사 결정 트리 회귀에 대한 나의 이해는 여전히 규칙 기반입니다-왼쪽 / 오른쪽 진행이며 훈련 세트의 트리 하단에서 특정 범위를 벗어난 값을 볼 수 없다는 점을 감안할 때 결코 그것을 예측?


1
그라디언트 부스팅 트리에 대한 비슷한 질문은 stats.stackexchange.com/questions/304962/…를
Adrian

답변:


10

당신은 완전히 옳습니다. 고전적인 의사 결정 트리는 역사적으로 관찰 된 범위 밖의 값을 예측할 수 없습니다 . 그들은 외삽하지 않을 것입니다.

임의의 포리스트에도 동일하게 적용됩니다.

이론적으로, 때로는 좀 더 정교한 아키텍처 (botanies?)에 대한 논의를 볼 수 있는데, 여기에서 나무의 잎은 단일 값을 제공하지 않지만 특정 수치 독립 변수에 대한 종속 변수를 회귀 하는 간단한 회귀를 포함 합니다. 트리를 탐색하면 어떤 경우에 IV를 회귀 분석 할 숫자 IV에 대한 규칙 세트가 제공됩니다. 이러한 경우,이 "하단 레벨"회귀는 아직 관측되지 않은 값을 산출하기 위해 추정 될 수 있습니다.

그러나 표준 기계 학습 라이브러리가 다소 복잡한 구조를 제공하지는 않는다고 생각합니다 (최근에 R에 대한 CRAN 작업 뷰를 통해 이것을 찾았습니다). 나뭇잎에 회귀가 포함 된 자체 트리를 구현할 수 있습니다.


1
나는 드문 드문 R에 지원 잎 회귀 분석을 수행하는 mobForest에 대해 읽고, stats.stackexchange.com/questions/48475/mobforest-r-package
소렌 Havelund 솟아

1
@SorenHavelundWelling : 재미 있겠다. 포인터 주셔서 감사합니다!
Stephan Kolassa

1
나무의 잎에서 선형 회귀 모델을 제공하는 첫 번째 알고리즘 중 하나는 Quinlan의 M5였으며 그 근사치는 Weka의 M5P ()에서 사용할 수 있습니다 (R에서 RWeka로 인터페이스 됨). Loh는 GUIDE라는 문제에 대한 편견없는 알고리즘을 처음 제안했습니다. 그의 독립형 패키지 바이너리는 그의 웹 사이트에 있습니다. 마지막으로, MOB (model-based) 재귀 분할 알고리즘은 다양한 모델을 포함합니다. R 패키지 파티 킷에서 사용할 수 있습니다. mob ()는 일반 도구이고 lmtree () 및 glmtree ()는 잎에 (일반화 된) 선형 모델을 사용하여 나무에 적용됩니다.
Achim Zeileis

2
@SorenHavelundWelling : 불행하게도, 패키지 CRAN에서 제거되었습니다 . Achim Zeileis가 권장 하는 패키지 를 살펴 보겠습니다 . mobForestpartykit
Stephan Kolassa


6

캐럿 패키지에서 입체파 도 확인하십시오 . 터미널 노드에서 선형 회귀를 구축하고 훈련 데이터의 응답 값 범위 위와 아래에서 예측을 추정 할 수 있습니다. 터미널 노드는 하이퍼 파라미터로 제공되는 가장 가까운 이웃을 기반으로 평균화 될 수 있으므로 매우 정확한 교차 검증 예측을 제공 할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.