회귀 트리는 지속적으로 예측할 수 있습니까?


11

와 같은 부드러운 함수가 있다고 가정하십시오 . 훈련 세트가 있습니다. D \ subsetneq \ {((x, y), f (x, y)) | (x, y) \ in \ mathbb {R} ^ 2 \} 그리고 물론 내가 원하는 곳에서 f 를 평가할 수는 있지만 f 는 모른다 .f(x,y)=x2+y2D{((x,y),f(x,y))|(x,y)R2}ff

회귀 트리는 함수의 부드러운 모형을 찾을 수 있습니까 (따라서 입력의 작은 변화는 출력의 작은 변화 만 주어야합니다)?

강의 10 : 회귀 트리 에서 읽은 내용에서 회귀 트리는 기본적으로 함수 값을 빈에 넣는 것 같습니다.

클래식 회귀 트리의 경우 각 셀의 모형은 Y의 상수 추정치입니다.

그들이 "고전적인"이라고 쓰면서 세포가 더 흥미로운 것을하는 변형이 있다고 생각합니다.

답변:


2

회귀 트리, 특히 그라디언트 부스팅 (실제로 많은 트리)은 연속 예측에서 매우 잘 수행되는 경향이 있으며 종종 선형 회귀와 같이 연속적인 모델보다 성능이 뛰어납니다. 이는 가변적 상호 작용이 있고 과도하게 맞지 않을 정도로 충분히 큰 데이터 세트 (1 만 개가 넘는 레코드)가있는 경우에 특히 그렇습니다. 기본 목표가 단순히 예측력 인 경우 모형이 100 % 연속인지 의사 연속인지는 관련이 없습니다. 회귀 트리를보다 연속적으로 만들면 샘플 예측 능력이 향상되면 트리 깊이를 늘리거나 더 많은 트리를 추가 할 수 있습니다.


1
동의한다. 내 부스트 트리는 거의 항상 매우 힘들게 제작되고 최적화 된 GLM보다 성능이 뛰어납니다. 물론 예측력을 얻으면 해석 능력이 떨어집니다.
prooffreader

0

클래식 회귀 트리에서는 리프에 하나의 값이 있지만 리프에서는 선형 회귀 모델을 사용할 수 있습니다 . 티켓을 확인 하십시오 .

또한 앙상블 트리 (Random Forest 또는 Gradient Boosting Machines)를 사용하여 지속적인 출력 값을 가질 수 있습니다.


0

일반 그라디언트 부스팅 기술을 포함하도록 질문을 약간 확장하면 (회귀 트리가 향상 된 특수 경우와 달리) 대답은 그렇습니다. 그라디언트 부스팅은 변수 선택의 대안으로 성공적으로 사용되었습니다. 좋은 예는 mboost package 입니다. 핵심은 부스팅에 사용되는 기본 학습자 클래스가 연속 모델로 구성된다는 것입니다. 이 학습서 는 기본 학습자의 일반적인 클래스를 다음과 같이 설명합니다.

일반적으로 사용되는 기본 학습 모델은 선형 모델, 부드러운 모델 및 의사 결정 트리의 세 가지 범주로 분류 할 수 있습니다. markov random field (Dietterich et al., 2004) 또는 wavelet (Viola and Jones, 2001)과 같은 여러 다른 모델도 있지만, 상대적으로 구체적인 실제 작업에 적용됩니다.

특히 웨이블릿을 언급합니다. 트리와 웨이블릿은 트리 기반 웨이블릿 으로 성공적으로 결합되었습니다 .


그라디언트 부스팅의 지속적인 기본 학습자는 무엇입니까? 답이 의사 결정 트리라면 연속적인 방법을 설명해 주시겠습니까?
Martin Thoma

내 답변을 업데이트했습니다. 핵심은 연속적인 트리와 같은 예측 변수를 사용하는 것입니다.
user3605620
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.