답변:
직관적으로, 작은 데이터 세트 또는 매우 균일하고 예측 가능한 데이터 세트에서 높은 P / R / F1을 얻는 것이 더 크거나 더 혼란스러운 데이터 세트에서 높은 P / R / F1을 얻는 것보다 쉽습니다. 따라서 더 크고 혼란스러운 데이터 세트에서 P / R / F1의 개선이 더 중요합니다.
이러한 직관에 따라 결과 분포의 차이를 측정하고 해당 세트의 크기와 다양성을 고려하기 위해 "블랙 박스"방법의 출력에 액세스해야 할 수도 있습니다. P / R / F1만으로는 정보가 거의 없을 것입니다.
이 설정에서 유의성 검정은 일반적으로 귀무 가설 (두 알고리즘이 항상 동일한 출력을 생성 함)을 형성 한 다음 알고리즘이 실제로 동일한 지 관찰 한 출력 차이를 관찰 할 확률을 계산하여 수행됩니다. 예를 들어 확률이 .05보다 작은 경우 귀무 가설을 기각하고 개선이 유의하다는 결론을 내립니다.
이 백서에는 관련 토론이 있습니다 : http://www.aclweb.org/anthology/C00-2137