정밀도 / 리콜 / F1에 기초한 유의성 테스트


12

정밀도 / 리콜 / F1 점수만을 기준으로 유의성 테스트를 수행 할 수 있습니까?

예를 들어, 동일한 데이터 집합 등에서 P / R / F1 만보고되는 논문에서 2 개의 시스템을 발견 한 경우 통계적 유의성 검정을 수행 할 수 있습니까? 그렇다면 어떻게됩니까?

답변:


4

직관적으로, 작은 데이터 세트 또는 매우 균일하고 예측 가능한 데이터 세트에서 높은 P / R / F1을 얻는 것이 더 크거나 더 혼란스러운 데이터 세트에서 높은 P / R / F1을 얻는 것보다 쉽습니다. 따라서 더 크고 혼란스러운 데이터 세트에서 P / R / F1의 개선이 더 중요합니다.

이러한 직관에 따라 결과 분포의 차이를 측정하고 해당 세트의 크기와 다양성을 고려하기 위해 "블랙 박스"방법의 출력에 액세스해야 할 수도 있습니다. P / R / F1만으로는 정보가 거의 없을 것입니다.

이 설정에서 유의성 검정은 일반적으로 귀무 가설 (두 알고리즘이 항상 동일한 출력을 생성 함)을 형성 한 다음 알고리즘이 실제로 동일한 지 관찰 한 출력 차이를 관찰 할 확률을 계산하여 수행됩니다. 예를 들어 확률이 .05보다 작은 경우 귀무 가설을 기각하고 개선이 유의하다는 결론을 내립니다.

이 백서에는 관련 토론이 있습니다 : http://www.aclweb.org/anthology/C00-2137

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.