xgboost 알고리즘에서 min_child_weight에 대한 설명


23

xgboost에서 min_child_weight 매개 변수 의 정의 는 다음과 같습니다.

어린이에게 필요한 인스턴스 가중치 (헤 시안)의 최소 합계. 트리 분할 단계에서 인스턴스 가중치의 합계가 min_child_weight보다 작은 리프 노드가 생성되면 빌드 프로세스는 추가 분할을 포기합니다. 선형 회귀 모드에서 이는 단순히 각 노드에 있어야하는 최소 인스턴스 수에 해당합니다. 알고리즘이 클수록 더 보수적입니다.

나는 xgboost에서 원본 논문 (공식 8과 방정식 9 직후의 것을 참조하십시오), 이 질문 및 Google 검색의 처음 몇 페이지에 나타나는 xgboost와 관련된 대부분을 읽었습니다. ;)

기본적으로 나는 왜 우리가 왜 헤센의 합에 구속을 가하고 있는지에 대해 만족하지 않습니까? 원래 논문에서 분만에 나의 유일한 생각 은 각 인스턴스의 '무게'로 를 갖는 가중 양자 스케치 섹션 (및 방정식 3 가중 제곱 손실의 재구성)과 관련이 것입니다.hi

추가 질문은 왜 선형 회귀 모드의 인스턴스 수에 불과합니까? 나는 이것이 제곱 방정식의 이차 미분과 관련이 있다고 생각합니까?

답변:


42

회귀 분석의 경우 노드의 각 포인트 손실은

12(yiyi^)2

대한이 표현의 두 번째 미분 은 입니다. 따라서 노드의 모든 점에 대한 2 차 도함수를 합하면 노드의 점 수를 얻습니다. 여기서 min_child_weight는 "노드에서 샘플 크기가 지정된 임계 값 아래로 떨어지면 분할을 중지합니다"와 같은 것을 의미합니다. 1yi^1

이항 로지스틱 회귀 분석의 경우 노드의 각 점에 대한 헤 시안은 다음과 같은 용어를 포함합니다.

σ(yi^)(1σ(yi^))

여기서 는 S 자형 함수입니다. 순수한 노드에 있다고 가정합니다 (예 : 노드의 모든 교육 예제는 1입니다). 그러면 모든 은 아마도 양의 숫자 일 것이므로 모든 는 1에 가까우므로 모든 헤센 항은 0에 가까워집니다. 여기에서 min_child_weight는 "노드에서 어느 정도의 순도에 도달하고 모델이 적합 할 수있게되면 분할을 중지합니다"와 같은 것을 의미합니다.^ y i σ ( ^ y i )σyi^σ(yi^)

Hessian은 정규화 및 트리 깊이 제한에 사용하는 제정신입니다. 회귀 분석을 위해 관측치가 1 개인 노드로 항상 분할하는 경우 과적 합 방법을 쉽게 알 수 있습니다. 마찬가지로 분류의 경우 각 노드가 순수해질 때까지 분할을 주장하는 경우 어떻게 과적 합할 수 있는지 쉽게 알 수 있습니다.


답장을 보내 주셔서 감사합니다. 낮은 평판으로 인해 귀하를 찬성 할 수 없습니다.
maw501

1
안녕 @ maw501 : 문제 없어요. 좋은 답변 Hahdawg!
Catbuilts

따라서 불균형이 심한 데이터의 경우 min_child_weight에 대해 제안 된 범위는 무엇입니까?
Mahdi Baghbanzadeh

불균형 데이터 세트에있을 때 min_child_weight에 가중치도 포함해야합니까? 고맙습니다! @hahdawg
HanaKaze
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.