질문
그라디언트 부스팅을 사용하여 이진 분류를 수행 할 때 예측이 간격 내에 유지되는 방식을 이해하기 위해 고심 하고 있습니다.
이진 분류 문제에 대해 작업 목적 함수가 로그 손실 . 여기서 대상 변수 이고 는 현재 모델입니다.y ∈ { 0 , 1 } H
우리의 새로운 모델이 가되도록 다음 약한 학습자 훈련시킬 때 , 을 유지하는 메커니즘은 무엇 입니까? 아니면 더 관련성이 높은 질문일까요? 그러한 메커니즘이 있습니까?H i = H i - 1 + h i H i ∈ [ 0 , 1 ]
내가하고있는 일에 대한 추가 정보
회귀 트리를 사용하여 그라디언트 부스팅을 구현하려고합니다. 내가 피하는 것은 가 0 이하로 가지 않도록 에 인수 곱하는 것입니다 이 범위에서 손실 함수를 최소화하는 를 선택합니다 .
이것은 다음과 같은 문제를 일으킨다 : 어떤 라운드 후에, 나는 완벽하게 분류 된 하나의 점을 가지고 있으며, 그라디언트 방향으로 분류기를 밀어 넣을 수있는 가장 좋은 스플릿은이 점을 하나 위로 밀어 올리려고합니다. 설정 . 따라서 모든 다음 반복은 동일한 스플릿과 동일한 합니다.
일반적인 정규화 방법을 시도했습니다
- 에 을 곱하여 학습 속도를 줄 입니다. 이것은 단지 문제를 지연시킵니다.
- 피쳐 공간을 서브 샘플링하지만 일부 포인트는 분류하기가 매우 쉽고 "이것은 긍정적입니까?" 거의 모든 "좋은 분할"이이 동작을 보여줍니다.
나는이 매개 변수의 문제가 아니라고 생각하고, 더이 있어야 소리가 이 문제를 해결하는 방법. 구현이 손상되었을 가능성을 무시하지는 않지만이 문제를 해결하는 것은 없습니다.
물류 손실과 관련하여 우리가 조작하는 것은 확률이되어야합니다. 어떻게 피할 수 있습니까?
저의 직관은 우리가 만들고있는 모델 를 제한되는 S 자형 함수로 만드는 것입니다. 그것이 작동 할 것 같지만 다른 해결책이 있는지 알고 싶습니다. 분류 작업에서 그래디언트 부스팅이 성공적으로 사용 된 것으로 보이므로 "올바른"(즉, 정당화) 솔루션이 존재해야합니다.