나는 최근에 확률 론적 분류 자에 대한 적절한 채점 규칙에 대해 배우고있다. 이 웹 사이트의 여러 스레드는 정확성이 부적절한 점수 규칙이며 로지스틱 회귀와 같은 확률 모델에 의해 생성 된 예측의 품질을 평가하는 데 사용해서는 안된다는 점을 강조했습니다.
그러나 내가 읽은 꽤 많은 학술 논문은 이진 분류 설정에서 (엄격하지 않은) 적절한 채점 규칙의 예로서 오 분류 손실을주었습니다. 내가 찾을 수있는 가장 명확한 설명은 7 페이지 하단에 있는 이 백서 에있었습니다. 이해를 돕기 위해 오 분류 손실을 최소화하는 것은 정확성을 최대화하는 것과 같습니다. 그리고 논문의 방정식은 직관적으로 이해됩니다.
예를 들어, 논문 표기법을 사용하여 관심 클래스의 실제 조건부 확률 (일부 특징 벡터 x가 주어진 경우 )이 η = 0.7 인 경우 예측 q > 0.5는 예상 손실 R (η | q ) = 0.7 (0) + 0.3 (1) = 0.3이며, q 0.5이면 예상 손실이 0.7입니다. 따라서 손실 함수는 q = η = 0.7 에서 최소화 되고 결과적으로 적절합니다. 진정한 조건부 확률과 예측의 전체 범위에 대한 일반화는 거기에서 충분히 간단 해 보입니다.
위의 계산과 진술이 정확하다고 가정하면, 고유하지 않은 최소값과 0.5 이상의 동일한 예상 최소 손실을 공유하는 모든 예측은 명백합니다. 나는 여전히 로그 점수, 브리 어 점수 등과 같은 전통적인 대안에 비해 정확도를 사용할 이유가 없다. 그러나 이진 설정에서 확률 모델을 평가할 때 정확도가 적절한 점수 규칙이라고 말하는 것이 옳은가? 실수-잘못 분류 손실에 대한 나의 이해 또는 정확성과 동일시?