'약한 학습자'란 무엇입니까?


33

누구나 '약한 학습자'라는 구절의 의미를 말해 줄 수 있습니까? 약한 가설이되어야합니까? 나는 약한 학습자와 약한 분류기의 관계에 대해 혼란스러워합니다. 둘 다 같거나 차이가 있습니까?

adaboost 알고리즘에서 T=10. 그게 무슨 뜻입니까? 왜 우리는 선택 T=10합니까?


1
@vrushali 사이트에 오신 것을 환영합니다. 나는 영어를 더 부드럽게 만들기 위해 이것을 편집했다; 여전히 그것이 무엇을 의미하는지 확인하십시오. 또한 두 번째 질문 세트 (adaboost에 관한)가 첫 번째 질문 세트와 같은지 확실하지 않습니다. 그것들을 다른 스레드로 분리하는 것이 더 합리적 일 수 있습니다.
gung-Monica Monica 복원

답변:


34

'약한'학습자 (분류 자, 예측 자 등)는 상대적으로 성능이 좋지 않은 것입니다. 정확도는 우연이지만 정확도는 거의 없습니다. 계산적으로 단순하다는 추가 된 의미가 종종 있지만 항상 그런 것은 아닙니다. 약한 학습자는 "강력한"앙상블 분류기를 만들기 위해 알고리즘의 많은 인스턴스가 부스팅, 배깅 등을 통해 함께 풀링되고 있다고 제안합니다.

Freund & Schapire의 원본 AdaBoost 논문에 언급되어 있습니다.

아마도 이러한 응용 프로그램 중 가장 놀라운 것은 "부스팅"을위한 새로운 응용 프로그램을 도출하는 것입니다. 즉, 무작위 추측보다 약간 더 나은 "약한"PAC 학습 알고리즘을 임의로 높은 정확도를 가진 알고리즘으로 변환하는 것입니다. - (1995) 프레이 더 & 샤 피어

그러나 나는 그 문구가 실제로 그것보다 오래되었다고 생각합니다. 사람들은 1980 년대부터 Michael Kearns의 논문 (?!)이라는 용어를 인용하는 것을 보았습니다.

약한 학습자의 전형적인 예는 1 단계 의사 결정 트리 인 Decision Stump입니다 (1R 또는 OneR은 일반적으로 사용되는 또 다른 약한 학습자이며 상당히 유사합니다). 성능이 좋지 않은 상황에서도 SVM을 '약한 학습자'라고 부르는 것은 다소 이상하지만, 놀랍게도 자체적으로 잘 수행되는 경우에도 단일 의사 결정을 약한 학습자라고 부르는 것이 합리적입니다.


Adaboost는 반복 알고리즘이며 일반적으로 반복 횟수 또는 "라운드"를 나타냅니다. 알고리즘은 데이터에 대한 약한 학습자를 훈련 / 테스트하여 시작하며 각 예제에 동일한 가중치를 부여합니다. 잘못 분류 된 예는 다음 라운드에서 가중치가 증가하는 반면, 올바르게 분류 된 예는 가중치가 감소합니다.

T = 10 에 대해 마술이 있는지 확실하지 않습니다 =10. 1995 년 논문에서 는 자유 매개 변수로 제공됩니다 (예 : 직접 설정).


내가 아는 한 DecisionStump는 1Rule과 다릅니다. 의사 결정 스텀프는 항상 이진 1 레벨 트리 (명목 및 숫자 속성 모두)입니다. 1Rule은 명목과 숫자에 대해 둘 이상의 자식을 가질 수 있으며 숫자 속성에 대해서는 이진수를 값으로 나누는 것보다 복잡한 테스트를합니다. 또한 WEKA에는 DecisionStump와 OneR의 두 가지 구현이 있습니다.
rapaio

흠 ... 네가 옳은 것 같아. 최초의 1R 논문은 "1- 룰이라고 불리는이 논문에서 검토 된 특정 종류의 규칙은 단일 속성 (즉, 1- 레벨 의사 결정 트리)에 따라 객체를 분류하는 규칙입니다."
Matt Krause

명인 패키지, CRAN에 :이 기본 명인 구현도 CRAN.R-project.org/package=OneR은 여기, 네트입니다 : cran.r-project.org/web/packages/OneR/vignettes/OneR. html (전체 공개 : 저는이 패키지의 저자입니다).
vonjd

7

약한 학습자 는 학습 데이터에 대한 분포가 무엇이든 데이터 레이블을 지정하려고 할 때 항상 우연보다 더 나은 학습자입니다. 우연보다 더 나은 것은 항상 1/2보다 작은 오류율을 갖습니다.

이것은 학습자 알고리즘이 항상 완전히 정확한 것은 아니지만 항상 무언가를 배우는 것을 의미합니다. 즉, (입력)와 (목표) 사이의 관계를 학습 할 때 약하고 나쁩니다 .엑스와이

그러나 오는 증폭 우리는 약간의 분포를 학습 데이터를 통해보고 시작하고 생성하는을, 다음, 낮은 오류가 약한 학습자 (분류)의 일부 세트를 발견하고, 각 학습자는 몇 가지 가설을 출력 . 이것은 약간의 (클래스 레이블)를 생성하고, 마지막 으로 좋은 가설을 결합하여 최종 가설 을 생성합니다 .H엑스와이

이것은 결국 약한 학습자를 향상시키고 그들을 강한 학습자 로 전환시킵니다 .

자세한 내용 https://youtu.be/zUXJb1hdU0k .


이력서에 오신 것을 환영합니다. 여기에 처음 오셨으므로 새로운 사용자를위한 정보가 포함 된 둘러보기 를 이용하십시오. . 이 답변은 이전 답변보다 새로운 것을 제공하거나 개선하지 않는 것 같습니다. 이전 것들에 빠진 것이 있다고 생각하십니까?
TEG-복원 모니카

왜 1/2보다 작아야합니까? 오류율이 1/2 이상이면 분류 기가 약해야합니다.
코드 교황

@CodePope, 나는 당신의 요점을 얻었지만 실제로 "약한 학습자"는 공식적으로 그러한 용어로 정의됩니다. 50 %가 넘는 오류가있는 모델도 나쁘고 약하다는 데 동의합니다. 그러나 과학자들이 정의한 공식적 정의에 관해 말하면, 약한 학습자는 1/2 또는 50 % 미만의 오류를 가진 학습자입니다.
Anish Singh Walia

1

약한 학습자는 약한 분류기 또는 약한 예측 자와 동일합니다. 아이디어는 당신이 좋지는 않지만 적어도 무작위보다 나은 분류기를 사용한다는 것입니다. 이점은 분류 기가 과적 합에 강력하다는 것입니다. 물론 하나만 사용하는 것이 아니라 각각의 세트를 무작위보다 약간 낫습니다. 이를 선택 / 결합하는 정확한 방법은 방법 / 알고리즘 (예 : AdaBoost)에 따라 다릅니다.

실제로 약한 분류 자로 단일 기능에 대한 간단한 임계 값과 같은 것을 사용합니다. 지형지 물이 임계 값보다 높으면 기능이 양성에 속한다고 예측하고 그렇지 않으면 기능이 음성에 속한다고 결정합니다. 컨텍스트가 없기 때문에 T = 10에 대해 확실하지 않지만 일부 기능을 임계 값으로 지정하는 예라고 가정 할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.