부스팅 방법이 특이 치에 민감한 이유


12

부스팅 방법이 특이 치에 민감하다는 내용의 많은 기사를 찾았지만 그 이유를 설명하는 기사는 없습니다.

내 경험상 특이 치는 기계 학습 알고리즘에 좋지 않지만 부스팅 방법이 특히 민감한 것으로 분류되는 이유는 무엇입니까?

부스트 트리, 랜덤 포레스트, 신경망, SVM 및 로지스틱 회귀 분석과 같은 간단한 회귀 분석 방법은 특이 치에 대한 민감도 측면에서 다음 알고리즘을 어떻게 평가할 것인가?


1
명확히하기 위해 편집했습니다 (줄의 시작 부분에 공백을 넣으면 stackexchange가 코드로 처리합니다). 두 번째로, 부스팅은 무엇입니까? 감도를 정의해야 할 수도 있습니다.
Jeremy Miles

1
또한 특이 치와 명사도 같은 것이 아닙니다.
Jeremy Miles

이 질문은 아직 해결 된 것으로 표시하지 않습니다. 부스팅이 실제로 다른 방법보다 특이 치로 고통 받는지 확실하지 않습니다. 승인 된 답변은 대부분 확인 편견 때문에 받아 들여진 것 같습니다.
rinspy

이 기사 중 일부를 공유 할 수 있습니까?
acnalb

답변:


11

부스팅은 이전 트리의 잔차 / 오류에 각 트리를 작성하기 때문에 특이 치가 부스팅에 좋지 않을 수 있습니다. 특이 치는 비 이상치보다 잔차가 훨씬 크므로 그래디언트 부스팅은 해당 점에 대한 관심의 불균형 한 양에 초점을 맞 춥니 다.


2
OP에 더 많은 수학적 세부 정보를 줄 수 있다면 더 좋습니다!
Metariat

5
@Matemattica 수학적 세부 사항을 추가하면 여기에 추가 선명도가 제공된다는 데 동의하지 않습니다. 트리 그래디언트의 심볼 일 뿐이며 학습률은 후속 트리입니다.
Ryan Zotti

1
@RyanZotti : Metariat에 동의합니다. 보다 공식적인 표기법은 약간의 혼란을 해결할 것입니다. 예를 들어 'Outliers는 비 Outliers보다 잔차가 훨씬 큽니다'라는 문장에서 잔차가 무엇을 의미합니까? 추정 된 모형 또는 실제 모형? 전자의 경우 일반적으로 사실이 아니며 후자의 경우에는 관련이 없습니다.
user603

1

지정한 알고리즘은 분류를위한 것이므로 대상 변수의 특이 치를 의미하는 것이 아니라 입력 변수 특이 치를 가정한다고 가정합니다. 기본 학습자가 트리 분할이므로 Boosted Tree 메소드는 입력 기능의 특이 치에 대해 상당히 견고해야합니다. 예를 들어, 분할이 x > 35이면 5,000,000이 동일하게 취급됩니다. 이것은 좋은 것일 수도 아닐 수도 있지만, 다른 질문입니다.

대신 대상 변수의 회귀 및 특이 치에 대해 이야기하는 경우 부스트 트리 방법의 감도는 사용되는 비용 함수에 따라 다릅니다. 물론, 제곱 오차는 차이가 제곱되고 손실의 (그라데이션) 손실에 맞추기 위해 부스트하려는 시도가 다음 트리에 큰 영향을 미치기 때문에 특이 치에 민감합니다. 그러나 Huber loss 및 Absolute Loss와 같은 부스트 ​​트리 방법에 사용할 수있는보다 강력한 오류 함수가 있습니다 .


0

부스팅에서는 데이터 하위 집합을 임의로 선택하는 대신 알고리즘 결과가 좋지 않은 데이터 세트를 선택하려고합니다. 이 어려운 예는 배우는 중요한 것이므로 데이터 세트에 특이 치가 많고 알고리즘이 그 예에서 배우는 것보다 성능이 좋지 않은 경우 알고리즘은 해당 예와 함께 하위 집합을 선택하려고 시도합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.