xgboost의 대략적인 스플릿 포인트 제안을 이해하는 데 도움이 필요합니다


12

배경:

xgboost 반복 시도 트리에 맞게 F t을 온통 n 개의 목적은 다음 최소화 예 :tftn

i=1n[gift(xi)+12hift2(xi)]

여기서 일차 및 이전 최상의 추정을 통해 2 차 유도체 (Y) (반복에서 t - 1 ) :gi,hiy^t1

  • gi=dy^l(yi,y^)
  • hi=dy^2l(yi,y^)

그리고 우리의 손실 함수입니다.l


질문은 (마침내) :

빌드 하고 특정 스플릿에서 특정 기능 k 를 고려할 때 다음 휴리스틱을 사용하여 일부 스플릿 후보 만 평가합니다. 모든 예제를 x k로 정렬하고 정렬 된 목록을 통과 한 다음 두 번째 미분 h i를칩니다 . 합계가 ϵ 이상 변경 될 때만 분할 후보를 고려합니다 . 왜 그런 겁니까???ftkxkhiϵ

그들이주는 설명은 나를 회피합니다.

그들은 우리가 이전 방정식을 다음과 같이 다시 작성할 수 있다고 주장합니다.

i=1n12hi[ft(xi)gi/hi]2+constant

그리고 나는 대수를 따르지 않습니다-왜 그것이 같은지 보여줄 수 있습니까?

그리고 그들은 "이것은 레이블 와 weight h i " 로 정확하게 가중 된 제곱 손실입니다 . ..gi/hihi

포럼이 너무 길면 감사합니다.

답변:


8

자세한 내용은 다루지 않겠지 만 다음은 아이디어를 이해하는 데 도움이됩니다.

{x1,,x100}10{x10,x20,,x90}ϵϵNϵ=0.01100{1%,2%,...,99%}ϵϵ

1010%10%


난 그냥 당신에게 투표를 제공하기 위해 로그인했습니다. 이해하기 쉬운 설명 감사합니다.
Pakpoom Tiwakornkit

3

@Winks 답변에 대수 부분을 추가하면됩니다.

두 번째 방정식은 다음과 같이 부호가 반전되어야합니다.

i=1n12hi[ft(xi)(gi/hi)]2+constant=i=1n12hi[ft2(xi)+2ft(xi)gihi+(gi/hi)2]=i=1n[gift(xi)+12hift2(xi)+gi22hi]

gihift

gi/hihi

크레딧은 저의 팀으로부터 Yaron과 Avi에게 설명을 해주었습니다.


0

그리고 그들은 "이것은 gi / higi / hi와 weights hihi라는 레이블로 정확하게 가중 된 제곱 손실"이라고 주장합니다-나는 동의하지만, 그들이 사용하는 스플릿 후보 알고리즘과 어떻게 관련이 있는지 이해하지 못합니다. .

  1. wtthw=gi/hi(ft(gi/hi))2

  2. wavg(gi)/constsigma(gi)/sigma(hi)whigiwhi

hi

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.