누구나 '약한 학습자'라는 구절의 의미를 말해 줄 수 있습니까? 약한 가설이되어야합니까? 나는 약한 학습자와 약한 분류기의 관계에 대해 혼란스러워합니다. 둘 다 같거나 차이가 있습니까?
adaboost 알고리즘에서 T=10
. 그게 무슨 뜻입니까? 왜 우리는 선택 T=10
합니까?
누구나 '약한 학습자'라는 구절의 의미를 말해 줄 수 있습니까? 약한 가설이되어야합니까? 나는 약한 학습자와 약한 분류기의 관계에 대해 혼란스러워합니다. 둘 다 같거나 차이가 있습니까?
adaboost 알고리즘에서 T=10
. 그게 무슨 뜻입니까? 왜 우리는 선택 T=10
합니까?
답변:
'약한'학습자 (분류 자, 예측 자 등)는 상대적으로 성능이 좋지 않은 것입니다. 정확도는 우연이지만 정확도는 거의 없습니다. 계산적으로 단순하다는 추가 된 의미가 종종 있지만 항상 그런 것은 아닙니다. 약한 학습자는 "강력한"앙상블 분류기를 만들기 위해 알고리즘의 많은 인스턴스가 부스팅, 배깅 등을 통해 함께 풀링되고 있다고 제안합니다.
Freund & Schapire의 원본 AdaBoost 논문에 언급되어 있습니다.
아마도 이러한 응용 프로그램 중 가장 놀라운 것은 "부스팅"을위한 새로운 응용 프로그램을 도출하는 것입니다. 즉, 무작위 추측보다 약간 더 나은 "약한"PAC 학습 알고리즘을 임의로 높은 정확도를 가진 알고리즘으로 변환하는 것입니다. - (1995) 프레이 더 & 샤 피어
그러나 나는 그 문구가 실제로 그것보다 오래되었다고 생각합니다. 사람들은 1980 년대부터 Michael Kearns의 논문 (?!)이라는 용어를 인용하는 것을 보았습니다.
약한 학습자의 전형적인 예는 1 단계 의사 결정 트리 인 Decision Stump입니다 (1R 또는 OneR은 일반적으로 사용되는 또 다른 약한 학습자이며 상당히 유사합니다). 성능이 좋지 않은 상황에서도 SVM을 '약한 학습자'라고 부르는 것은 다소 이상하지만, 놀랍게도 자체적으로 잘 수행되는 경우에도 단일 의사 결정을 약한 학습자라고 부르는 것이 합리적입니다.
T = 10 에 대해 마술이 있는지 확실하지 않습니다 . 1995 년 논문에서 는 자유 매개 변수로 제공됩니다 (예 : 직접 설정).
약한 학습자 는 학습 데이터에 대한 분포가 무엇이든 데이터 레이블을 지정하려고 할 때 항상 우연보다 더 나은 학습자입니다. 우연보다 더 나은 것은 항상 1/2보다 작은 오류율을 갖습니다.
이것은 학습자 알고리즘이 항상 완전히 정확한 것은 아니지만 항상 무언가를 배우는 것을 의미합니다. 즉, (입력)와 (목표) 사이의 관계를 학습 할 때 약하고 나쁩니다 .
그러나 오는 증폭 우리는 약간의 분포를 학습 데이터를 통해보고 시작하고 생성하는을, 다음, 낮은 오류가 약한 학습자 (분류)의 일부 세트를 발견하고, 각 학습자는 몇 가지 가설을 출력 . 이것은 약간의 (클래스 레이블)를 생성하고, 마지막 으로 좋은 가설을 결합하여 최종 가설 을 생성합니다 .
이것은 결국 약한 학습자를 향상시키고 그들을 강한 학습자 로 전환시킵니다 .
자세한 내용 https://youtu.be/zUXJb1hdU0k .
약한 학습자는 약한 분류기 또는 약한 예측 자와 동일합니다. 아이디어는 당신이 좋지는 않지만 적어도 무작위보다 나은 분류기를 사용한다는 것입니다. 이점은 분류 기가 과적 합에 강력하다는 것입니다. 물론 하나만 사용하는 것이 아니라 각각의 세트를 무작위보다 약간 낫습니다. 이를 선택 / 결합하는 정확한 방법은 방법 / 알고리즘 (예 : AdaBoost)에 따라 다릅니다.
실제로 약한 분류 자로 단일 기능에 대한 간단한 임계 값과 같은 것을 사용합니다. 지형지 물이 임계 값보다 높으면 기능이 양성에 속한다고 예측하고 그렇지 않으면 기능이 음성에 속한다고 결정합니다. 컨텍스트가 없기 때문에 T = 10에 대해 확실하지 않지만 일부 기능을 임계 값으로 지정하는 예라고 가정 할 수 있습니다.