그라디언트 부스팅을 사용한 분류 : [0,1]의 예측 유지 방법


17

질문

그라디언트 부스팅을 사용하여 이진 분류를 수행 할 때 예측이 간격 내에 유지되는 방식을 이해하기 위해 고심 하고 있습니다.[0,1]

이진 분류 문제에 대해 작업 목적 함수가 로그 손실 . 여기서 대상 변수 이고 는 현재 모델입니다.y { 0 , 1 } Hyilog(Hm(xi))+(1yi)log(1Hm(xi))y{0,1}H

우리의 새로운 모델이 가되도록 다음 약한 학습자 훈련시킬 때 , 을 유지하는 메커니즘은 무엇 입니까? 아니면 더 관련성이 높은 질문일까요? 그러한 메커니즘이 있습니까?H i = H i - 1 + h i H i[ 0 , 1 ]hiHi=Hi1+hiHi[0,1]


내가하고있는 일에 대한 추가 정보

회귀 트리를 사용하여 그라디언트 부스팅을 구현하려고합니다. 내가 피하는 것은 가 0 이하로 가지 않도록 에 인수 곱하는 것입니다 이 범위에서 손실 함수를 최소화하는 를 선택합니다 .hic[0,cmax]H+cmaxhc

이것은 다음과 같은 문제를 일으킨다 : 어떤 라운드 후에, 나는 완벽하게 분류 된 하나의 점을 가지고 있으며, 그라디언트 방향으로 분류기를 밀어 넣을 수있는 가장 좋은 스플릿은이 점을 하나 위로 밀어 올리려고합니다. 설정 . 따라서 모든 다음 반복은 동일한 스플릿과 동일한 합니다.c=0c=0

일반적인 정규화 방법을 시도했습니다

  • 에 을 곱하여 학습 속도를 줄 입니다. 이것은 단지 문제를 지연시킵니다.cμ=0.01
  • 피쳐 공간을 서브 샘플링하지만 일부 포인트는 분류하기가 매우 쉽고 "이것은 긍정적입니까?" 거의 모든 "좋은 분할"이이 동작을 보여줍니다.

나는이 매개 변수의 문제가 아니라고 생각하고, 더이 있어야 소리가 이 문제를 해결하는 방법. 구현이 손상되었을 가능성을 무시하지는 않지만이 문제를 해결하는 것은 없습니다.

물류 손실과 관련하여 우리가 조작하는 것은 확률이되어야합니다. 어떻게 피할 수 있습니까?


저의 직관은 우리가 만들고있는 모델 를 제한되는 S 자형 함수로 만드는 것입니다. 그것이 작동 할 것 같지만 다른 해결책이 있는지 알고 싶습니다. 분류 작업에서 그래디언트 부스팅이 성공적으로 사용 된 것으로 보이므로 "올바른"(즉, 정당화) 솔루션이 존재해야합니다.H[0,1]


ln ( H )가 다른 전문가와 추가적으로 동작 한다는 점에서 가 다중성을 요구할 수 있습니다. Hln(H)
Alex R.

답변:


22

나는 이것을 선형 모델의 경우와 비슷하고 GLM (일반 선형 모델)으로의 확장과 비슷하다고 생각합니다.

선형 모델에서는 선형 함수를 피팅하여 반응을 예측합니다.

y^=β0+β1x1+βnxn

다른 상황으로 일반화하기 위해 모델의 선형 부분을 반응의 규모로 변환하는 링크 함수를 소개합니다 (기술적으로 이것은 역 링크이지만 선형 예측 변수를 변환하는 것이 더 쉽다고 생각합니다) 응답을 선형 예측 변수로 변환하는 것보다 응답으로 변환).

예를 들어 로지스틱 모델은 S 자형 (또는 로짓) 함수를 사용합니다.

y^=11+exp((β0+β1x1+βnxn))

포아송 회귀는 지수 함수를 사용합니다.

y^=exp(β0+β1x1+βnxn)

그래디언트 부스팅으로 유추를 구성하기 위해 이러한 모델의 선형 부분을 부스트 트리의 합으로 바꿉니다. 예를 들어, 가우스 사례 (선형 회귀 분석과 유사)는 잘 알려져 있습니다.

y^=ihi

hi

y^=11+exp(ihi)

포아송 부스팅은 포아송 회귀와 유사합니다.

y^=exp(ihi)

iβixi

예를 들어, 이항 손실은 일반적으로

iyilog(pi)+(1yi)log(1pi)

pipiLiLi

iyiLilog(1+exp(Li))

L

우리가 사용자를위한 예측을 만들고 싶을 때 마지막으로, 약한 학습자의 최종 시퀀스에 링크 함수를 적용하여 예측을 응답과 같은 규모로 적용합니까? 모델을 피팅하는 동안 내부적으로 선형 스케일로 전체 작업을 수행합니다.


2
r(,)i(yilog11+er+(1yi)log(111+er))r

@ matthew-drury 비슷한 아이디어가 적용되는 동일한 알고리즘의 K 클래스 다항식 섹션에 약간의 조명을 추가 할 수 있습니까?
MixCoded

6

약간의 연구 끝에 내 직감과 Alex R.의 의견 이 옳은 것 같습니다 .

[0,1]HHR

11+eH[0,1]
H

이것은 Additive Logistic Regression : Friedman, Hastie 및 Tibshirani 가 LogisticBoost (Wikipedia) 를 Logistic Loss에 적용한 LogitBoost (Wikipedia) 를 구축하기위한 부스팅에 대한 통계적 견해 에서 제안되었습니다 .

매우 기본적인 용어로, S 자형을 추가하여 선형 회귀 분석에서 로지스틱 회귀 분석으로 이동할 수 있다면 회귀 부스팅을 분류 부스팅으로 변환하는 데에도 사용됩니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.