이진 분류 설정에서 정확도가 부적절한 점수 규칙입니까?


13

나는 최근에 확률 론적 분류 자에 대한 적절한 채점 규칙에 대해 배우고있다. 이 웹 사이트의 여러 스레드는 정확성이 부적절한 점수 규칙이며 로지스틱 회귀와 같은 확률 모델에 의해 생성 된 예측의 품질을 평가하는 데 사용해서는 안된다는 점을 강조했습니다.

그러나 내가 읽은 꽤 많은 학술 논문은 이진 분류 설정에서 (엄격하지 않은) 적절한 채점 규칙의 예로서 오 분류 손실을주었습니다. 내가 찾을 수있는 가장 명확한 설명은 7 페이지 하단에 있는 이 백서 에있었습니다. 이해를 돕기 위해 오 분류 손실을 최소화하는 것은 정확성을 최대화하는 것과 같습니다. 그리고 논문의 방정식은 직관적으로 이해됩니다.

예를 들어, 논문 표기법을 사용하여 관심 클래스의 실제 조건부 확률 (일부 특징 벡터 x가 주어진 경우 )이 η = 0.7 인 경우 예측 q > 0.5는 예상 손실 R (η | q ) = 0.7 (0) + 0.3 (1) = 0.3이며, q 0.5이면 예상 손실이 0.7입니다. 따라서 손실 함수는 q = η = 0.7 에서 최소화 되고 결과적으로 적절합니다. 진정한 조건부 확률과 예측의 전체 범위에 대한 일반화는 거기에서 충분히 간단 해 보입니다.

위의 계산과 진술이 정확하다고 가정하면, 고유하지 않은 최소값과 0.5 이상의 동일한 예상 최소 손실을 공유하는 모든 예측은 명백합니다. 나는 여전히 로그 점수, 브리 어 점수 등과 같은 전통적인 대안에 비해 정확도를 사용할 이유가 없다. 그러나 이진 설정에서 확률 모델을 평가할 때 정확도가 적절한 점수 규칙이라고 말하는 것이 옳은가? 실수-잘못 분류 손실에 대한 나의 이해 또는 정확성과 동일시?

답변:


15

TL; DR

정확도는 부적절한 점수 규칙입니다. 사용하지 마십시오.

약간 긴 버전

실제로 정확도는 득점 규칙이 아닙니다. 따라서 (엄격히) 적절한 지 묻는 것은 카테고리 오류입니다. 우리가 말할 수있는 가장 큰 것은 추가 가정 하에서 정확성이 부적절하고 불 연속적이며 오도하는 점수 규칙과 일치한다는 것입니다. (사용하지 마십시오.)

혼란

귀하의 혼동은 귀하가 인용 한 논문에 따른 오 분류 손실도 점수 규칙이 아니라는 사실에서 비롯됩니다.

세부 사항 : 스코어링 규칙 대 분류 평가

용어를 고쳐 보자. 우리는 이진 결과 관련 , 우리는 확률 예측이 Q = P ( Y = 1 ) ( 0 , 1 ) . 우리는 알고 P ( Y = 1 ) = η > 0.5 하지만 우리의 모델 q는 나 알고하지 않을 수도 있습니다.y{0,1}q^=P^(Y=1)(0,1)P(Y=1)=η>0.5q^

채점 규칙 확률 예측 소요 매핑 Q 및 결과 (Y)를 , 손실에q^y

s:(q^,y)s(q^,y).

sq^=ηsq^=η

sq^iyi

y^{0,1}

a:(y^,y)a(y^,y)={1,y^=y0,y^y.

따라서 정확도는 점수 규칙이 아닙니다 . 분류 평가입니다. (이것은 방금 발명 한 용어이므로 문헌에서 찾지 마십시오.)

q^y^θ

y^(q^,θ):={1,q^θ0,q^<θ.

θ=0.5q^iyi

q^q^y^=y^(q^,θ)q^

q^=ηθ=0.5q^(0,1)

y^q^

q^θθ=0.5q^=0.99q^θq^η

θ=0.2y=1y=0q^q^=0.25q^θ

따라서 정확성 또는 오 분류 손실이 오도 될 수 있습니다.

또한 결과가 iid가 아닌 더 복잡한 상황에서는 추가 가정 하에서 정확성과 오 분류 손실 부적절합니다. Frank Harrell은 자신의 블로그 게시물에서 분류 정확도 및 기타 비 연속적 부정확 한 정확도 점수 규칙으로 인한 손상이 올바른 조건부 예측에 의해 최적화 되지 않았기 때문에 정확도 또는 오 분류 손실을 사용하면 모델이 잘못 지정 될 수있는 사례 중 하나를 인용합니다. 개연성.

θ

자세한 내용은 분류 모델을 평가할 때 정확도가 왜 최상의 척도가 아닌가?를 참조하십시오. .

결론

정확성을 사용하지 마십시오. 오 분류 손실도 없습니다.

nitpick : "엄격한"vs. "엄격한"

"엄격한"적절한 채점 규칙 또는 "엄격한"적절한 채점 규칙에 대해 이야기해야합니까? "엄격한"은 "점수 규칙"이 아닌 "적절한"을 수정합니다. ( "적절한 채점 규칙"및 "엄격한 채점 규칙"은 있지만 "엄격한 채점 규칙"은 없습니다.) "엄격하게"는 형용사가 아닌 부사이어야하며 "엄격하게"사용해야합니다. 문헌, 예를 들어 틸만 그네 팅 (Tilmann Gneiting)의 논문에서보다 일반적이다.


내가 따르지 않는 게시물의 여러 측면이 있지만 (또는 내가 묻는 질문과 관련이 없다고 생각하는 경우) 시작합니다. "인용 한 논문에 따른 오 분류 손실은 점수 규칙이 아닙니다." 공식은 종이에 매우 명확하게 나와 있습니다. L1 (1-q) = 1 [q <= 0.5] (포맷이 잘못됨). 모든 실용적인 목적을 위해, 확률 론적 예측 및 관련 결과를 0 또는 1의 손실에 직접 매핑하는 단계 함수입니다. 또한 0.5는 단계가 발생하는 위치를 제어하는 ​​매개 변수 일뿐입니다. 관련된 "가정"을 보지 못했습니다. 이것이 어떻게 점수 규칙이 아닙니까?
Zyzzva

1
q

1
관련성에 관해서는 잘못된 길로 벗어났다면 사과드립니다. 나는 질문의 범위를 불연속 적이거나 오해의 소지가 아닌 적절한 대 부적절한 것에 대해 구체적으로 집중하려고 노력했다. 귀하가 제공 한 링크에 대해 잘 알고 있으며 분류 오류 또는 수익에 대한 귀하의 의견에는 문제가 없습니다. 나는이 논문이 이진 결과의 일반적인 사용 사례에 대해 다르게 제시하고 있다는 점을 감안할 때 "정확성이 부적절하다"라는 진술에 대해보다 엄격한 설명을 찾고있다. 시간을내어이 문제에 대해 토론하고 자세한 생각을 공유해 주셔서 감사합니다.
Zyzzva

1
더 깊이 생각해 본 후, 나는 당신이 만들고있는 요점을 더 잘 이해하고 있다고 생각합니다. 0.6의 단계와 동일한 단계 함수를 고려하면 (임계 값 0.6의 분류에 해당) 점수 손실 규칙은 부적절합니다. 예상 손실이 더 이상 범위의 n에 대한 예측 q = n에 의해 최소화되지 않기 때문입니다. 0.5, 0.6]. 보다 일반적으로 0.5 이외의 모든 임계 값에서 부적절 할 수 있으며 실제로는 종종 사용자가 지적한 바와 같이 비 분류 오 분류 비용으로 인해 다른 임계 값을 사용하려고합니다.
Zyzzva

1
나는 0.5의 임계 값이 정당화 될지라도 정확도를 평가하기에는 정확도가 분명히 나쁜 척도라고 동의한다. 나는 내가 작성한 원래 게시물의 끝 부분에서 많은 것을 말했지만, 이것은 내가 겪고있는 구체적인 세부 사항을 명확하게하는 데 도움이되었습니다. 즉, 정확성이 이진 결과에 적합하다는 것을 오해 한 것입니다. 내가 많이 봤다는 "정확성이 부적절하다"는 것처럼 보이는 흑백 진술로 0.5 임계 값의 매우 구체적인 경우에 적용됩니다. 도와 주셔서 감사합니다.
Zyzzva
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.