샘플 크기가 다른 여러 분류기의 성능 측정


12

현재 텍스트에서 추출한 다양한 엔터티에 여러 분류기를 사용하고 있으며 각 개별 분류 기가 주어진 데이터 집합에서 얼마나 잘 수행되는지에 대한 요약으로 정밀도 / 호출을 사용하고 있습니다.

이러한 분류기의 성능을 비슷한 방식으로 비교하는 의미있는 방법이 있는지 궁금하지만 분류되는 테스트 데이터의 각 엔터티 수를 고려합니까?

현재는 성능 측정으로 정밀도 / 호출을 사용하고 있으므로 다음과 같은 내용이있을 수 있습니다.

                    Precision Recall
Person classifier   65%       40%
Company classifier  98%       90%
Cheese classifier   10%       50%
Egg classifier      100%      100%

그러나이 데이터를 실행하는 데이터 세트에는 100k 명, 5k 회사, 500 치즈 및 1 달걀이 포함될 수 있습니다.

위의 표에 추가 할 수있는 요약 통계가 있습니까? 각 통계는 각 항목의 총 수를 고려합니까? 또는 Egg 분류기의 100 % prec / rec가 하나의 데이터 항목에서만 의미가 없을 수 있다는 사실을 측정하는 방법이 있습니까?

수백 개의 분류자가 있다고 가정 해 보겠습니다. "어떤 분류 기가 실적이 저조합니까? 어느 분류 기준이 성능이 저조한 지 알 수있는 테스트 데이터가 부족합니까?"와 같은 질문에 대답 할 수있는 좋은 방법을 찾고 있다고 생각합니다.


다른 데이터 세트에 대해 다른 분류자가 훈련 된 경우 어떻게 의미있는 방식으로 비교할 수 있습니까? 사과와 오렌지, 초크와 치즈가 떠 오릅니다. 또한 멀티 클래스 분류 기가있는 경우 정밀도를 계산하고 호출하는 방법은 무엇입니까? N = 1을 아는 것조차 반드시 도움이되는 것은 아닙니다. 세상에 달걀이 하나만 있다면, 계란 분류 기가 좋습니다.
Bull

그들은 동일한 데이터 세트에 대해 훈련 된 다른 분류 자입니다. 예를 들어 사과와 오렌지에 관한 문서가 있다는 것을 알고 있으므로 사과 분류기를 실행하여 사과의 종류를 결정하고 주황색 분류기를 사용하여 오렌지의 종류를 결정합니다 그것에 대해 이야기합니다. Google 문서가 사과에 대해 99 %, 오렌지에 대해 1 %이고 두 분류 기가 동일한 prec / rec (혼동 행렬에 대한 행 / 콜 합산)가 동일한 경우 각 수량의 차이를 고려하여 제공 할 수있는 정보가 있습니까? ? (아니요, 없을 수도 있습니다, 제가 기뻐할만한 답변입니다)
Dave Challis

답변:


5

통계의 신뢰 구간을 확인해야합니다. 이는 통계량의 불확실성을 측정하는 데 도움이되며 이는 주로 표본 크기의 함수입니다.


2

내 의견으로는, 크기의 큰 차이가있을 때 성능을 비교하기가 어렵습니다. 이 링크에서 (Wikipedia http://en.wikipedia.org/wiki/Effect_size 에서 확인 하십시오) 다른 전략을 볼 수 있습니다.

내가 제안하는 것은 분산과 관련된 것입니다. 예를 들어 분류기 (100 %) 및 개인 분류기 (65 %)의 성능을 고려하십시오. 이전 분류기로 커밋하는 최소 오류는 100 %입니다. 그러나 후자의 분류 자로 커밋 할 수있는 최소 오류는 10e-5입니다.

따라서 분류자를 비교하는 한 가지 방법 은 성능과 변동성을 비교할 수있는이 3 가지 규칙 ( http://en.wikipedia.org/wiki/Rule_of_three_(statistics)) 을 염두에 두는 것 입니다.

다른 가능성은 Precision과 Recall의 조합 인 F-measure 이며 효과 크기와는 무관합니다.


2

클래스의 데이터 수는 때때로 support분류기의 수 라고합니다 . p- 값을 사용하면 테스트를 신뢰하거나 불신하는 것처럼 결과를 얼마나 신뢰할 수 있는지 알려줍니다.

사용할 수있는 한 가지 접근 방식은 정밀도 및 리콜뿐만 아니라 실제 긍정적 인 비율, 잘못된 긍정적 인 비율, 특이성, 감도, 긍정적 인 가능성, 부정적인 가능성 등 여러 분류기 성능 측정 값을 계산하고 이들이 서로 일치하는지 확인하는 것입니다. . 측정 값 중 하나가 최대치 (100 %)이고 다른 측정 값이없는 경우, 종종 내 경험상 문제가 잘못되었음을 나타냅니다 (예 : 지원 불량, 사소한 분류기, 편향 분류기 등). 분류기 성능 측정 목록은 항목을 참조하십시오 .

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.