현재 텍스트에서 추출한 다양한 엔터티에 여러 분류기를 사용하고 있으며 각 개별 분류 기가 주어진 데이터 집합에서 얼마나 잘 수행되는지에 대한 요약으로 정밀도 / 호출을 사용하고 있습니다.
이러한 분류기의 성능을 비슷한 방식으로 비교하는 의미있는 방법이 있는지 궁금하지만 분류되는 테스트 데이터의 각 엔터티 수를 고려합니까?
현재는 성능 측정으로 정밀도 / 호출을 사용하고 있으므로 다음과 같은 내용이있을 수 있습니다.
Precision Recall
Person classifier 65% 40%
Company classifier 98% 90%
Cheese classifier 10% 50%
Egg classifier 100% 100%
그러나이 데이터를 실행하는 데이터 세트에는 100k 명, 5k 회사, 500 치즈 및 1 달걀이 포함될 수 있습니다.
위의 표에 추가 할 수있는 요약 통계가 있습니까? 각 통계는 각 항목의 총 수를 고려합니까? 또는 Egg 분류기의 100 % prec / rec가 하나의 데이터 항목에서만 의미가 없을 수 있다는 사실을 측정하는 방법이 있습니까?
수백 개의 분류자가 있다고 가정 해 보겠습니다. "어떤 분류 기가 실적이 저조합니까? 어느 분류 기준이 성능이 저조한 지 알 수있는 테스트 데이터가 부족합니까?"와 같은 질문에 대답 할 수있는 좋은 방법을 찾고 있다고 생각합니다.