부스팅 방법이 특이 치에 민감하다는 내용의 많은 기사를 찾았지만 그 이유를 설명하는 기사는 없습니다.
내 경험상 특이 치는 기계 학습 알고리즘에 좋지 않지만 부스팅 방법이 특히 민감한 것으로 분류되는 이유는 무엇입니까?
부스트 트리, 랜덤 포레스트, 신경망, SVM 및 로지스틱 회귀 분석과 같은 간단한 회귀 분석 방법은 특이 치에 대한 민감도 측면에서 다음 알고리즘을 어떻게 평가할 것인가?
부스팅 방법이 특이 치에 민감하다는 내용의 많은 기사를 찾았지만 그 이유를 설명하는 기사는 없습니다.
내 경험상 특이 치는 기계 학습 알고리즘에 좋지 않지만 부스팅 방법이 특히 민감한 것으로 분류되는 이유는 무엇입니까?
부스트 트리, 랜덤 포레스트, 신경망, SVM 및 로지스틱 회귀 분석과 같은 간단한 회귀 분석 방법은 특이 치에 대한 민감도 측면에서 다음 알고리즘을 어떻게 평가할 것인가?
답변:
부스팅은 이전 트리의 잔차 / 오류에 각 트리를 작성하기 때문에 특이 치가 부스팅에 좋지 않을 수 있습니다. 특이 치는 비 이상치보다 잔차가 훨씬 크므로 그래디언트 부스팅은 해당 점에 대한 관심의 불균형 한 양에 초점을 맞 춥니 다.
지정한 알고리즘은 분류를위한 것이므로 대상 변수의 특이 치를 의미하는 것이 아니라 입력 변수 특이 치를 가정한다고 가정합니다. 기본 학습자가 트리 분할이므로 Boosted Tree 메소드는 입력 기능의 특이 치에 대해 상당히 견고해야합니다. 예를 들어, 분할이 x > 3
5이면 5,000,000이 동일하게 취급됩니다. 이것은 좋은 것일 수도 아닐 수도 있지만, 다른 질문입니다.
대신 대상 변수의 회귀 및 특이 치에 대해 이야기하는 경우 부스트 트리 방법의 감도는 사용되는 비용 함수에 따라 다릅니다. 물론, 제곱 오차는 차이가 제곱되고 손실의 (그라데이션) 손실에 맞추기 위해 부스트하려는 시도가 다음 트리에 큰 영향을 미치기 때문에 특이 치에 민감합니다. 그러나 Huber loss 및 Absolute Loss와 같은 부스트 트리 방법에 사용할 수있는보다 강력한 오류 함수가 있습니다 .