F- 측정 값을 해석하는 방법?


41

f- 측정 값의 차이를 해석하는 방법을 알고 싶습니다. 나는 f- 측정이 정밀도와 리콜 사이의 균형 잡힌 평균이라는 것을 알고 있지만 F- 측정 차이의 실질적인 의미에 대해 묻고 있습니다.

예를 들어 분류기 C1의 정확도가 0.4이고 다른 분류기 C2의 정확도가 0.8 인 경우 C2가 C1과 비교하여 두 가지 테스트 예를 올바르게 분류했다고 말할 수 있습니다. 그러나 분류 자 ​​C1이 특정 클래스에 대해 F- 측정치가 0.4이고 다른 분류기 C2가 0.8로 측정되면 두 분류기의 성능 차이에 대해 무엇을 진술 할 수 있습니까? C2가 C1보다 X 개의 인스턴스를 더 정확하게 분류했다고 말할 수 있습니까?


2
F- 측정이 정밀도와 리콜 기능인 en.wikipedia.org/wiki/F1_score 이므로 많은 것을 말할 수 있는지 잘 모르겠습니다 . 그러나 수학을 수행하고 하나의 정밀도 또는 리콜을 일정하게 유지하고 다른 것에 대해 말할 수 있습니다.
Nick

답변:


41

F 측정의 직관적 인 의미는 생각할 수 없습니다. 이는 결합 된 메트릭 일뿐입니다. 물론 F- 측정보다 직관적 인 것은 정확성과 리콜입니다.

그러나 두 개의 값을 사용하면 한 알고리즘이 다른 알고리즘보다 우수한지 여부를 판단 할 수없는 경우가 많습니다. 예를 들어, 한 알고리즘이 다른 알고리즘보다 정밀도는 높지만 리콜이 낮은 경우 어떤 알고리즘이 더 나은지 어떻게 알 수 있습니까?

'정밀은 왕입니다.'와 같이 마음에 구체적인 목표가 있다면 리콜에 관심이 없어요. '라고해도 문제 없습니다. 높은 정밀도가 좋습니다. 그러나 강력한 목표가 없다면 결합 된 측정 항목을 원할 것입니다. F- 측정입니다. 이를 사용하면 정밀도와 리콜을 비교할 수 있습니다.

F- 측정을 나타내는 ROC 곡선이 종종 그려집니다. ROC 곡선을 포함한 여러 측정 값에 대한 설명이 포함되어 있으므로이 기사가 흥미로울 수 있습니다. http://binf.gmu.edu/mmasso/ROC101.pdf


23

F1 점수의 중요성은 시나리오에 따라 다릅니다. 대상 변수가 이진 레이블이라고 가정합니다.

  • 균형 잡힌 수업 :이 상황에서는 F1 점수를 효과적으로 무시할 수 있으며 분류 오류가 중요합니다.
  • 불균형 클래스이지만 두 클래스가 모두 중요합니다. 클래스 분포가 매우 치우친 경우 (예 : 80:20 또는 90:10) 분류기는 다수 클래스를 선택하여 분류 오류가 적을 수 있습니다. 그런 상황에서 나는 두 분류에서 높은 F1 점수를 받고 분류 오류가 낮은 분류기를 선택합니다. 낮은 F1 점수를받는 분류기는 간과되어야합니다.
  • 언밸런스 클래스이지만 한 클래스는 다른 클래스보다 중요합니다. 예를 들어 사기 탐지에서는 사기가 아닌 사례에 레이블을 지정하는 것과 달리 인스턴스를 사기로 올바르게 레이블을 지정하는 것이 더 중요합니다. 이 경우 중요한 클래스에서만 F1 점수가 좋은 분류자를 선택합니다 . F1 점수는 클래스별로 제공됩니다.

9

F- 측정은 직관적 인 의미를 갖습니다. 또한 분류자가 얼마나 정확한지 (정확하게 분류하는 인스턴스 수)와 얼마나 강력한 지 (많은 수의 인스턴스를 놓치지 않음)를 알려줍니다.

정밀도는 높지만 리콜이 낮 으면 분류 기가 매우 정확하지만 분류하기 어려운 많은 수의 인스턴스가 누락됩니다. 이것은별로 유용하지 않습니다.

이 히스토그램을 살펴보십시오. 여기에 이미지 설명을 입력하십시오원래 목적을 무시하십시오.

오른쪽으로 갈수록 정밀도는 높아지지만 리콜은 적습니다. 점수가 0.9를 초과하는 인스턴스 만 선택하면 분류 된 인스턴스가 매우 정확하지만 많은 수의 인스턴스를 놓치게됩니다. 실험에 따르면 여기의 스위트 스폿은 약 0.76이며 F- 측정 값은 0.87입니다.


5

F- 측정은 정밀도와 리콜의 조화 평균입니다. 대부분의 경우 정밀도와 리콜간에 균형이 있습니다. 분류기를 최적화하여 하나를 늘리고 다른 하나를 싫어하면 고조파 평균이 빠르게 줄어 듭니다. 그러나 정밀도와 재 호출이 동일 할 때 가장 좋습니다.

분류기에 대해 0.4 및 0.8의 F- 측정 값이 주어지면 리콜에 대한 정밀도를 측정 할 때 최대 값이 달성 될 수 있습니다.

시각적 참조를 위해 Wikipedia 에서이 그림을 살펴보십시오 .

여기에 이미지 설명을 입력하십시오

F- 측정 값은 H , AB 는 리콜 및 정밀도입니다. 하나를 늘릴 수 있지만 다른 하나는 줄어 듭니다.


"Crossed Ladders"시각화가 좀 더 직관적이라는 것을 알았습니다. 저에게는 A = B의 평등이 가장 H를 더 직관적으로 만들어줍니다.
Coruscate5

3

F- 측정 (F1, 베타 = 1)에 대한 공식은 물리학에 병렬로 배치 된 두 개의 저항으로 구성된 등가 저항을 제공하는 공식과 동일합니다 (요인 2를 잊어 버림).

이것은 당신에게 가능한 해석을 줄 수 있으며, 전자 저항이나 열 저항에 대해 생각할 수 있습니다. 이 비유는 F- 측정을 감도와 정밀도가 병렬로 배치 된 등가 저항으로 정의합니다.

F- 측정의 경우 가능한 최대 값은 1이며 두 저항 중 하나가 저항을 잃는 즉시 저항을 풉니 다 (즉, 1 미만의 값을 얻음). 이 양과 그 역학을 더 잘 이해하려면 물리 현상에 대해 생각하십시오. 예를 들어, F- 측정 <= max (감도, 정밀도) 인 것으로 보입니다.


3

y 축의 정밀도와 x 축의 리콜에 따라 (1, 1)에서 의 레벨 곡선 의 기울기 는 입니다.Fβ1/β2

감안 및 ,하자 오진 위음성의 비용의 비인. 그러면 총 오류 비용은따라서 (1, 1)에서의 레벨 곡선의 기울기는 입니다. 따라서 사용하는 좋은 모델의 경우 오탐 (false positive)보다 배 더 많은 오탐을 고려한다는 것을 의미합니다 .

P=TPTP+FP
R=TPTP+FN
α
α1RR+1PP.
αFββ2


0

f1- 점수의 가장 직관적 인 의미는 리콜 및 정밀도의 평균으로 인식되고 있습니다. 당신을 위해 그것을 정리하자 :

분류 작업에서 고정밀 AND 리콜 을 사용하여 분류기를 구축 할 계획 입니다. 예를 들어, 사람이 정직한 지 아닌지를 알려주는 분류기.

정확성을 위해 주어진 그룹에 얼마나 많은 정직한 사람들이 있는지 정확하게 알 수 있습니다. 이 경우 높은 정밀도를 고려할 때 거짓말 쟁이를 정직하지만 자주는 아닌 것으로 잘못 분류 할 수 있다고 가정합니다. 다시 말해, 여기에서 정직한 거짓말 쟁이를 전체 그룹으로 식별하려고합니다.

그러나 리콜을 위해 거짓말 쟁이가 정직하다고 생각하면 실제로 걱정할 것입니다. 당신을 위해, 이것은 큰 손실과 큰 실수가 될 것이고 당신은 그것을 다시하고 싶지 않습니다. 또한 정직한 사람을 거짓말 쟁이로 분류했지만 모델이 거짓말 쟁이를 정직하다고 주장해서는 안됩니다. 다시 말해, 여기에서는 특정 수업에 중점을두고 있으며 실수하지 않도록 노력하고 있습니다.

이제 모델이 (1) 거짓말 쟁이로부터 정직한 것을 정확하게 식별하고 (정밀) (2) 두 클래스에서 각 사람을 식별 (리콜)하려는 경우를 생각해 보자. 즉, 두 지표 모두에서 잘 수행되는 모델을 선택할 수 있습니다.

그러면 선택 결정 모델이 두 메트릭의 평균을 기반으로 각 모델을 평가하려고합니다. F- 점수가 이것을 설명 할 수있는 가장 좋은 것입니다. 공식을 살펴 보겠습니다.

리콜 : p = tp / (tp + fp)

리콜 : r = tp / (tp + fn)

F- 점수 : fscore = 2 / (1 / r + 1 / p)

보다시피, 리콜 정밀도가 높을수록 F- 점수가 높아집니다.


0

F1 점수가 고조파 정밀도 및 리콜 평균이라는 것을 아는 것은 다음과 같습니다.

리콜은 잘못된 부정에 관한 것입니다. 즉, 리콜이 높을수록 FALSE NEGATIVES 가 적습니다 .

Recall=tptp+fn

FN이나 Zero FN이 적다는 것은 모델 예측이 정말 좋습니다.

정밀도가 높을수록 FALSE POSITIVES 가 적습니다.

Precision=tptp+fp

여기에서 동일 또는 적은 거짓 양성은 모형 예측이 실제로 우수함을 의미합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.