언제 AdaBoost를 사용하고 싶습니까?


14

직장에서 반복적으로 언급 된 AdaBoost 분류기에 대해 들었을 때, 작동 방식과 사용시기에 대해 더 나은 느낌을 얻고 싶었습니다. 계속해서 Google에서 찾은 여러 논문과 자습서를 읽었지만 여전히 이해하기 어려운 분류 기준이 있습니다.

  1. 내가 본 대부분의 튜토리얼은 AdaBoost에 대해 많은 분류기 중 가장 가중치가 높은 조합을 찾는 것으로 말합니다. 이것은 나에게 의미가 있습니다. 이해가되지 않는 것은 AdaBoost가 약한 학습자를 한 명만 받아들이는 구현 (예 : MALLET)입니다. 이것은 어떤 의미가 있습니까? AdaBoost에 제공된 분류 기가 하나만있는 경우 가중치가 1 인 동일한 분류기를 다시 반환해서는 안됩니까? 첫 번째 분류기에서 새 분류기를 어떻게 생성합니까?

  2. 실제로 AdaBoost를 언제 사용하고 싶습니까? 나는 그것이 즉시 사용 가능한 최고의 분류기 중 하나라는 것을 읽었지만 MaxEnt 분류기를 부스트하려고하면 AdaBoost가 70 % 이상의 f 점수를 얻었습니다. 매우 높은 회수율과 매우 낮은 정밀도로 15 %와 같은 점수를 얻습니다. 그래서 지금 혼란스러워합니다. 언제 AdaBoost를 사용하고 싶습니까? 가능한 경우 엄격한 통계적 대답보다는 직관적 인 것을 찾고 있습니다.

답변:


11

Adaboost는 매개 변수가 다른 동일한 분류 자의 여러 인스턴스를 사용할 수 있습니다. 따라서, 이전에 선형 분류기는 비선형 분류기로 결합 될 수있다. 또는 AdaBoost 사람들이 그것을 좋아하기 때문에 여러 약한 학습자가 하나의 강력한 학습자를 만들 수 있습니다. 좋은 사진을 찾을 수 있습니다 여기에 바닥에.

기본적으로 다른 학습 알고리즘과 마찬가지로 작동합니다. 일부 데이터 세트에서는 작동하지만 일부는 작동하지 않습니다. 확실한 데이터 세트가 있습니다. 그리고 당신은 아직 올바른 약한 학습자를 선택하지 않았을 것입니다. 로지스틱 회귀 분석을 시도 했습니까? 학습자를 추가하는 동안 의사 결정 경계가 어떻게 발전하는지 시각화 했습니까? 어쩌면 무엇이 잘못되었는지 알 수 있습니다.


(+1). 추가 사항 : 약한 학습자의 매개 변수가 다르더라도 데이터 세트의 구조가 변경 될 때 동작 (예 : 예측 대상)이 변경됩니다.
steffen

MaxEnt는 로지스틱 회귀입니다. 의사 결정 경계가 어떻게 진화하는지 시각화하면 실제로 매우 유용합니다. 어떻게 그렇게 할 수 있습니까? 또한 AdaBoost에 MALLET과 같이 하나의 기능 세트와 하나의 분류 자 ​​유형 만 제공되는 경우 여전히 어떻게 작동하는지 이해하지 못합니다. 나에게 이것은 완전히 반 직관적 인 것처럼 보인다.
YuliaPro

데이터 세트를 플로팅하면됩니다. 또한 시스템별로 분류되는 각 포인트의 색상을 선택하는 그리드를 플로팅합니다. 이것은 2D에만 효과적입니다. 여전히 가장 중요한 축이나 무언가를 그릴 수 있습니다. 하나의 기능 세트와 하나의 분류 기가 있으면 하나의 분류기로 만 줄입니다. 나는 최대 엔트로피가 구체적인 분류자가 아니라 패러다임이라는 인상을 받았다. 어쨌든.
bayerj
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.