예를 들어 F1과 비교하여 이 좋은 방법 이 아닌 이유를 설명하는 가장 좋은 방법은 무엇입니까 ?
예를 들어 F1과 비교하여 이 좋은 방법 이 아닌 이유를 설명하는 가장 좋은 방법은 무엇입니까 ?
답변:
정밀도와 리콜은 다음과 같이 정의됩니다.
그것들을 다시 더해서 다시 조정 해 봅시다. 곱하십시오.
따라서 분자는 같지만 분모가 다른 두 개의 수량이 있으며 그 평균을 구하고 싶습니다. 우리는 무엇을해야합니까? 우리는 그것들을 뒤집어 뒤집을 수있었습니다. 그런 다음 함께 추가 할 수 있습니다. 그래서 그들은 "오른쪽을 향하고 있습니다."
이 반전 과정과 다시 반전 과정은 "정규"평균을 고조파 평균으로 바꿉니다. 그냥 그렇게 정밀도와 리콜의 조화 평균이 그 일 입니다 F1을-통계. 일반적으로 고조파 평균은 여기에서와 같이 속도를 처리 할 때 표준 산술 평균 대신 사용됩니다.
결국 F1- 통계량은 정밀도와 리콜의 평균 일 뿐이며 모델의 성능을 평가하기 위해 둘 중 하나를 선택하지 않기 때문에 사용합니다.
짧은 대답은 다음과 같습니다. 두 개의 다른 분모를 가진 두 퍼센트의 합이 특정 의미를 갖기를 기대하지 않습니다. 따라서 F1, F2 또는 F0.5와 같은 평균 측정 방법이 사용됩니다. 후자는 적어도 백분율의 속성을 유지합니다. 그래도 그들의 의미는 어떻습니까?
별도의 측정 값으로서의 정밀도와 리콜의 장점은 해석이 쉽고 모델의 비즈니스 목표에 쉽게 직면 할 수 있다는 사실입니다. 정밀도 는 모델별로 true positives
분류 된 사례 중 백분율을 측정합니다 positive
. 리콜true positives
은 모든 true
사례 에서 모델 이 찾은 비율을 측정합니다 . 많은 문제의 경우 정밀도 또는 재 호출 최적화 중에서 선택해야합니다.
모든 평균 측정 값은 위의 해석을 풀고 가장 선호하는 측정 값으로 요약됩니다. F1은 리콜 (Recall) 또는 정밀 (Precision)을 선호하는지 알지 못하거나 각각에 동일한 가중치를 부여한다는 의미입니다. 리콜이 정밀도보다 더 중요하다고 생각되면 평균 계산 (예 : F2)에 더 높은 가중치를 할당하고 그 반대의 경우 (예 : F0.5)도 할당해야합니다.
두 가지를 추가하는 것은 나쁜 척도입니다. 정의에 의해 100 % 리콜되기 때문에 모든 것을 긍정적으로 표시하면 점수가 1 이상이됩니다. 그리고 그 위에 약간의 정밀한 충돌이 생길 것입니다. F1에 사용 된 기하 평균은 약한 연결을 강조합니다. 최소한 F1 점수를 얻으려면 정밀도와 리콜 모두에 대해 최소한 괜찮아 야합니다.
F1 점수는 비대칭 확률이 심각 할 경우 특히 중요합니다.
다음 예를 고려하십시오. 희귀하지만 위험한 질병을 검사합니다. 1.000.000의 도시에서는 100 명만 감염되었다고 가정 해 봅시다.
검정 A는이 100 개의 양성을 모두 탐지합니다. 그러나 오 탐지율도 50 %입니다. 다른 500.000 명의 사람들이 잘못보고 있음을 잘못 보여줍니다.
한편, 테스트 B는 감염된 바이러스의 10 %가 누락되었지만 오 탐지율은 1.000 (0.1 % 오 탐지율) 만 나타냅니다.
점수를 계산해 봅시다. 테스트 A의 경우 정밀도는 사실상 0입니다. 리콜은 정확히 1입니다. 테스트 B의 경우 정밀도는 여전히 약 0.01입니다. 리콜은 0.9와 같습니다.
만약 우리가 산술 정밀도의 평균을 합치거나 취한다면, 이것은 테스트 A의 경우 1 (0.5), 테스트 B의 경우 0.91 (0.455)을 줄 것입니다. 따라서 테스트 A는 조금 더 나아질 것입니다.
그러나 우리가 실제적인 관점에서 볼 때, 시험 A는 쓸모가 없습니다. 사람이 양성으로 시험되면 진정으로 병에 걸릴 확률은 50.000에서 1입니다! 테스트 B는보다 실질적인 의미를 갖습니다. 1.100 명을 병원에 데려 가서 면밀히 관찰 할 수 있습니다. 이것은 F1 점수에 정확하게 반영됩니다 : 테스트 A의 경우 0.0002에 가까울 것입니다. 테스트 B의 경우 : (0.01 * 0.9) / (0.01 + 0.9) = 0.0098이며, 여전히 가난하지만 약 50 배 더 좋습니다.
점수 값과 실제적 중요성 사이의 일치는 F1 점수를 가치있게 만듭니다.
일반적으로 기하 평균을 최대화하면 값이 비슷하다는 것을 강조합니다. 예를 들어, 첫 번째 모델은 (정밀도, 리콜) = (0.8, 0.8) 두 번째 모델은 (정밀도, 리콜) = (0.6, 1.0)입니다. 대수 평균을 사용하면 두 모델이 동일합니다. 기하 평균을 사용하면 첫 번째 모델은 리콜 정밀도를 교환하지 않기 때문에 더 좋습니다.