그라디언트 부스팅 ( https://en.wikipedia.org/wiki/Gradient_boosting ) 에 대한 유용한 Wikipedia 항목을 읽고 있으며 가장 가파른 하강 단계 (의사 그라디언트라고도 함)로 잔차를 근사화하는 방법 / 이유를 이해하려고합니다. ). 가장 가파른 강하가 잔존물과 어떻게 연결 / 유사하는지에 대해 누구나 직감을 줄 수 있습니까? 대단히 감사합니다!
그라디언트 부스팅 ( https://en.wikipedia.org/wiki/Gradient_boosting ) 에 대한 유용한 Wikipedia 항목을 읽고 있으며 가장 가파른 하강 단계 (의사 그라디언트라고도 함)로 잔차를 근사화하는 방법 / 이유를 이해하려고합니다. ). 가장 가파른 강하가 잔존물과 어떻게 연결 / 유사하는지에 대해 누구나 직감을 줄 수 있습니까? 대단히 감사합니다!
답변:
우리가 다음과 같은 상황에 있다고 가정하십시오. 우리는 일부 데이터가 각각 숫자 또는 벡터가 될 수 있습니다, 우리는 함수를 결정하려는 그 관계에 근접 , 의미에서 그 최소 제곱 오류:
작다.
이제 우리는 의 영역이 무엇인지에 대한 질문 을합니다. 도메인에 대한 타락한 선택은 교육 데이터의 요점 일뿐입니다. 이 경우 원하는 전체 도메인을 포함하여 정의 하고이를 수행 할 수 있습니다. 이 답변에 도달하는 방법에 대한 라운드는이 이산 공간을 도메인으로하여 경사 하강을 수행하는 것입니다. 이것은 관점에서 약간의 변화가 필요합니다. 손실을 점 true 와 예측 의 함수로 봅시다 (순간 는 함수가 아니라 예측 값입니다)
그런 다음 예측과 관련하여 기울기를 가져옵니다.
그런 다음 의 초기 값에서 시작하는 그라디언트 업데이트 는
따라서이 설정으로 그라디언트 단계에서 완벽한 예측을 복구 할 수 있습니다.
물론 여기서의 결점은 우리가 훈련 데이터 포인트 이상의 것 이상으로 를 정의하기를 원한다는 것입니다. 이를 위해서는 훈련 데이터 세트 이외의 지점에서 손실 함수 또는 그레디언트를 평가할 수 없으므로 몇 가지 양보를해야합니다.
큰 아이디어는 비슷하게하는 것입니다 .
Start
에서 초기 추측으로 거의 항상 간단한 상수 함수 , 이것은 어디서나 정의됩니다. 이제 대한 초기 추측을 사용하여 훈련 데이터에서 손실 함수의 기울기를 평가하여 새로운 작업 데이터 세트를 생성하십시오 .
Now approximate
약한 학습자를 맞추면됩니다 . 근사값 을 얻습니다 . 우리는 작은 학습자에 적합하기 때문에 훈련 지점에서 정밀도를 잃었지만 형식으로 전체 도메인에 걸쳐 데이터 의 확장을 얻었습니다 .
Finally
전체 도메인 에서 의 그래디언트 업데이트에서 대신 를 사용 하십시오.
우리 는 의 새로운 근사치 인 얻습니다 . 보다 약간 낫습니다 . 시작하고 만족할 때까지 반복하십시오.
실제로 중요한 것은 손실의 기울기를 근사화하는 것입니다. 최소 제곱 최소화의 경우 이는 원시 잔차의 형태를 취하지 만 더 복잡한 경우에는 그렇지 않습니다. 그래도 기계는 적용됩니다. 훈련 데이터에서 손실 및 손실의 기울기를 계산하기위한 알고리즘을 구성 할 수있는 한,이 알고리즘을 사용하여 해당 손실을 최소화하는 함수를 근사화 할 수 있습니다.