분류기 평가 : 학습 곡선과 ROC 곡선


11

대규모 교육 데이터 세트를 사용하는 다중 클래스 텍스트 분류 문제에 대해 2 개의 다른 분류기를 비교하고 싶습니다. ROC 곡선을 사용해야하는지 아니면 학습 곡선을 사용하여 두 분류기를 비교해야하는지 궁금합니다.

한편, 학습 곡선은 분류 기가 학습을 중단하고 저하 될 수있는 데이터 세트의 크기를 찾을 수 있기 때문에 학습 데이터 세트의 크기를 결정하는 데 유용합니다. 따라서이 경우 가장 좋은 분류기는 가장 작은 데이터 세트 크기로 가장 높은 정확도에 도달 할 수 있습니다.

반면에 ROC 곡선을 사용하면 감도 / 특이성 사이에서 올바른 절충점을 찾을 수 있습니다. 이 경우 가장 좋은 분류기는 왼쪽 상단에 가장 가까운 분류기이며 FPR에 대해 가장 높은 TPR입니다.

두 가지 평가 방법을 모두 사용해야합니까? 더 나은 학습 곡선을 가진 방법이 더 나쁜 ROC 곡선을 가질 수 있습니까?


훈련 세트가 커지면 성능이 저하되는 분류기의 예가 있습니까?
mogron

답변:


11

학습 곡선은 진단 도구 일 뿐이며 모델이 얼마나 빨리 학습하는지와 전체 분석이 너무 작은 세트 / 너무 작은 앙상블 (적용되는 경우)의 기발한 영역에 갇혀 있지 않은지 알려줍니다. 모델 평가에 흥미로운이 도표의 유일한 부분은 최종 평가, 즉 최종 성능입니다. 그러나 이것은보고 할 도표가 필요하지 않습니다.
질문에서 스케치 할 때 학습 곡선을 기반으로 모델을 선택하는 것은 좋지 않은 생각입니다. 너무 작은 샘플 세트에 과적 합하는 데 가장 적합한 모델을 선택하기 쉽기 때문입니다.

ROC 정보 ... ROC 곡선 은 객체가 한 클래스에 속하는 신뢰도 점수 를 생성 하는 이진 모델을 평가하는 방법입니다 . 또한 실제 분류 기준으로 변환하기위한 최상의 임계 값을 찾을 수도 있습니다.
ROC 공간 에서 TPR / FPR의 산점도로서 분류기의 성능을 플롯 하고 가장 왼쪽 상단 코너 기준에 가장 가까운 기준을 사용하여 잘못된 경보와 미스 생성 사이에 가장 균형이 맞는 것을 선택하는 것이 좋습니다. -이 특정 목표는 최고의 F- 점수 (고조파 평균 정밀도와 리콜)를 가진 모델을 선택함으로써 더욱 우아하게 달성 할 수 있습니다 .

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.