F1 / 주사위 점수 vs IoU


24

F1 점수, 주사위 점수 및 IoU (노조에 대한 교차점)의 차이에 대해 혼란 스러웠습니다. 지금까지 나는 F1과 Dice가 같은 것을 의미한다는 것을 알았고 (오른쪽?) IoU는 다른 두 가지와 매우 유사한 공식을 가지고 있습니다.

  • F1 / 주사위 :
    2TP2TP+FP+FN
  • IoU / 자카드 :
    TPTP+FP+FN

F1이 실제 양성에 가중치를 부여한다는 점을 제외하고는 실질적인 차이점이나 주목할만한 것이 있습니까? 하나만 사용하고 다른 쪽은 사용하지 않는 상황이 있습니까?


분명히 Jaccard 계수는 IoU와 동일합니다
pietz

이 (현재 4) 측정 중 일부가 이진 데이터에만 해당되는 경우 특히 관심이 있습니다.
pietz

답변:


37

당신은 올바른 길을 가고 있습니다.

에프/2나는영형에프

나는영형/에프=1/2+나는영형/2

그러나 기계 학습으로 분류를 일반적으로 적용 할 수있는 더 강력한 진술이 있습니다. 고정 된 "지상 진실"에 대해 두 메트릭은 항상 양의 상관 관계가 있습니다. 즉, 분류 자 ​​A가 한 메트릭에서 B보다 낫다면 다른 메트릭에서 분류 자 ​​B보다 낫습니다.

그런 다음 두 메트릭이 기능적으로 동일하므로 그 중에서 선택하는 것은 임의적이지만 빠르지는 않다는 결론을 내릴 것입니다! 문제는 일련의 추론에 대해 평균 점수를 얻을 때 발생합니다 . 그러면 어떤 경우에 대해 분류기 B가 A보다 얼마나 나쁜지를 정량화 할 때 차이가 나타납니다 .

일반적으로 IoU 지표는이 하나의 인스턴스가 나쁘다는 데 둘 다 동의 할 수있는 경우에도 불량 분류의 단일 인스턴스를 F 점수보다 더 많은 양으로 벌칙을 부과하는 경향이 있습니다. L2가 L1보다 더 큰 실수를 페널티하는 방법과 유사하게 IoU 메트릭은 F 점수와 관련된 오류에 "제곱"효과를 갖는 경향이 있습니다. 따라서 F 점수는 평균 성능에 가까운 것을 측정하는 반면 IoU 점수는 최악의 성능에 가까운 것을 측정합니다.

예를 들어, 대부분의 추론이 B보다 분류 자 ​​A에 비해 적당히 우수하지만 그 중 일부는 분류 자 ​​A를 사용하면 상당히 나빠진다고 가정하십시오. 분류기 B.

확실히,이 두 지표는 서로 다른 것보다 훨씬 비슷합니다. 그러나 둘 다 많은 추론에 대해 이러한 점수의 평균을 취한다는 관점에서 또 다른 단점이 있습니다. 둘 다 실제 근거가 아닌 진실의 긍정적 세트로 세트의 중요성을 과장합니다. 이미지 분할의 일반적인 예에서 이미지에 감지 가능한 클래스의 단일 픽셀 만 있고 분류자가 해당 픽셀과 다른 하나의 픽셀을 감지하면 F 점수는 2/3로 낮고 IoU는 1 / 2. 이와 같은 사소한 실수는 이미지 세트에서 얻은 평균 점수를 심각하게 지배 할 수 있습니다. 즉, 각 픽셀 오류를 동일하게 취급하지 않고 선택된 / 관련 세트의 크기에 반비례하여 가중치를 둡니다.

이 문제를 피하는 훨씬 간단한 메트릭이 있습니다. 총 오류 : FN + FP를 사용하십시오 (예 : 이미지 픽셀의 5 %가 잘못 분류 됨). 하나가 다른 것보다 더 중요한 경우 가중 평균을 사용할 수 있습니다.기음0기음1


빌렘, 나는 더 나은 대답을 요구할 수 없었다. 시간 내 주셔서 감사합니다.
pietz

5
나는 총 오류 접근 방식을 시도했지만 양수와 음수 사이의 지속적인 불균형으로 잘 작동하지 않는다고 덧붙이고 싶었습니다. 단 하나의 픽셀 만 기본 진리 분할을 구성하는 이미지의 전체 데이터 세트를 상상해보십시오. 신경망은 빈 오차가 총 오차를 사용하여 항상 99.9 % 정확하다는 것을 상당히 빨리 배울 수 있습니다. IoU 또는 DSC를 사용하면 위에서 언급 한 것과 같은 이유로 네트워크가 세분화를 찾도록 압력을가합니다. 따라서 결국 문제가 매우 중요합니다.
pietz

1
누군가 다음 두 문장을 조정하도록 도와 줄 수 있습니까? : 1 : "That is to say that if classifier A is better than B under one metric, it is also better than classifier B under the other metric."및 2 :"It may be the case then that the F metric favors classifier A while the IoU metric favors classifier B."
Matt Kleinsmith

1
전자는 단일 추론의 점수를 말하고 후자는 일련의 추론 (예 : 이미지 세트)에 대한 평균 점수를 나타냅니다.
willem
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.