분류기를 평가할 때 오류 메트릭을 선택하는 방법은 무엇입니까?


15

Kaggle 대회에서 사용되는 다양한 오류 메트릭을 보았습니다. RMS, 평균 제곱, AUC 등. 오류 메트릭을 선택할 때 일반적으로 적용되는 규칙은 무엇입니까? 즉, 주어진 문제에 어떤 오류 메트릭을 사용할지 어떻게 알 수 있습니까? 지침이 있습니까?

답변:


12

선택할 수있는 오류 메트릭 풀은 분류와 회귀에 따라 다릅니다. 후자에서는 하나의 연속 값을 예측하려고 시도하고 분류를 통해 "건강"또는 "건강하지 않음"과 같은 개별 클래스를 예측합니다. 언급 한 예에서, 제곱 평균 제곱 오차는 회귀에 적용 할 수 있고 AUC는 두 클래스로 분류 할 수 있습니다.

분류에 대해 좀 더 자세히 설명하겠습니다. ROC 곡선 아래 영역 인 측정 값으로 AUC를 언급했습니다.일반적으로 두 클래스의 이진 분류 문제에만 적용됩니다. 그러나 두 개 이상의 클래스에 대해 ROC 곡선을 구성하는 방법이 있지만 두 클래스에 대한 ROC 곡선의 단순성을 잃습니다. 또한, 선택 분류 기가 각 예측과 관련된 어떤 종류의 점수를 출력하는 경우에만 ROC 곡선을 구성 할 수 있습니다. 예를 들어 로지스틱 회귀는 두 클래스 각각에 대한 확률을 제공합니다. 단순성 외에도 ROC 곡선은 데이터 세트에서 양수와 음수로 표시된 인스턴스 간의 비율에 영향을받지 않으며 임계 값을 선택하지 않아도되는 장점이 있습니다. 그럼에도 불구하고 ROC 곡선 만 보는 것이 아니라 다른 시각화도 보는 것이 좋습니다. 정밀 리콜 곡선과 비용 곡선을 살펴 보는 것이 좋습니다.하나의 진정한 오류 측정은 모두 장단점이 있습니다.

이와 관련하여 내가 찾은 문헌은 다음과 같습니다.

분류자가 어떤 종류의 점수를 제공하지 않으면 진정한 긍정, 오탐, 참 부정 및 거짓 부정의 수를 포함 하는 혼동 행렬 에서 얻을 수있는 기본 측정으로 돌아 가야합니다 . 위에서 언급 한 시각화 (ROC, 정밀 회수, 비용 곡선)는 모두 분류기 점수의 다른 임계 값을 사용하여 얻은 이러한 표를 기반으로합니다. 이 경우 가장 널리 사용되는 방법은 F1-Measure 일 것입니다.× 2×2


1
× 2×2

이 실수를 지적 해 주셔서 감사합니다. 위의 답변에서 수정했습니다.
sebp

5

기존 답변에 몇 가지 생각을 더 추가하겠습니다.

  • 대부분의 분류자는 실제로 중간 연속 점수를 가지며, 보통 하드 클래스 (t : 클래스 a, 위 : 클래스 b)를 할당하기위한 임계 값이 적용됩니다. 이 임계 값을 변경하면 ROC가 생성됩니다.
  • 일반적으로 이러한 곡선을 하나의 숫자 로 압축하는 것은 좋지 않습니다 . 예를 들어 유도 알고리즘 비교를위한 정확도 추정에 대한 사례를 참조하십시오
    . 동일한 AUC를 갖는 다른 ROC가 많이 있으며 유용성은 주어진 응용에 따라 크게 다를 수 있습니다.
  • 다른 방법으로 : 임계 값의 선택은 사용중인 응용 프로그램에 따라 결정될 수 있습니다.
  • 이러한 경계를 벗어난 분류 기준 성능을 볼 필요가 없으며 하나의 측정 항목 을 선택 하면 해당 범위의 다른 측정 항목의 관련 범위 만 요약해야합니다.
  • 연구 설계에 따라, 정확하거나 잘못 분류 된 표본의 전체 비율은 적절한 요약 일 수도 있고 그렇지 않을 수도 있습니다. 그로부터 얻을 수있는 결론은 연구 설계에 따라 달라질 것입니다. 테스트 데이터는 클래스? 분류 기가 사용되는 인구에 대해? 계층화 된 방식으로 수집 되었습니까? 이것은 분류 자의 대부분의 사용자가 예측 값에 더 관심이 있지만 민감도와 특이도는 훨씬 쉽게 측정 할 수 있다는 사실과 밀접한 관련이 있습니다.

  • 일반적인 지침에 대해 문의하십시오. 일반적인 지침 중 하나는 알아야한다는 것입니다

    • 어떤 종류의 성능이 필요한지 (민감도, 특이도, 예측 값 등은 분류 자의 동작에 대한 특정 질문에 대답합니다. 여기에 쓴 내용 참조 ).
    • 귀하의 응용 분야에서 이러한 성능 특성에 대해 허용 가능한 작업 범위는 무엇입니까?
      스팸 탐지에서 잘못된 부정을 받아 들일 수는 있지만 HIV 진단을위한 적절한 설정은 아닙니다.

이 질문에 대답 할 수 없으면 유용한 측정 항목 을 찾을 수 없습니다 .

분류 자 유효성 검사에서 무료 점심이없는 것처럼 조금 있습니다.


2

예상되는 오 분류 오류율은 내가 가장 많이 사용하고 본 방법입니다. ROC의 AUC는 일련의 분류 규칙을 측정 한 것입니다. 아이디어가 특정 분류자를 다른 분류기와 비교하는 경우 AUC는 적합하지 않습니다. 분류 규칙의 성능을 가장 직접적으로 나타 내기 때문에 어떤 형태의 분류 오류가 가장 적합합니다.

재 치환 추정치의 큰 편향과 휴가 율의 높은 편차로 인해 분류 오류율의 우수한 추정치를 찾는 데 많은 연구가 이루어졌다. 부트 스트랩과 부드러운 추정기가 문제가되었습니다. 교차 검증에 대한 부트 스트랩 개선에 대해서는 JASA 1983의 Efron 논문을 참조하십시오.

여기 에 Efron과 Tibshirami 의 1995 Stanford University 기술 보고서 가 저의 작업을 포함하여 문헌을 요약했습니다.


동일한 데이터 세트에서 두 분류기의 성능을 비교하는 것은 또 다른 주제입니다. 특히 ROC 및 AUC의 경우 ROC 곡선 전체 또는 AUC 추정값을 비교하는 몇 가지 방법이 있습니다. 이는 본질적으로 ROC / AUC가 다르지 않다는 귀무 가설을 사용한 통계 테스트입니다. 교차 검증 대 부트 스트랩은 또 다른 흥미로운 주제입니다. 최근에 최근에 dx.doi.org/10.1016/j.csda.2010.03.004 논문을 보았습니다 . 한 번에 모든 측면을 고려하면 꽤 위협적 일 수 있습니다.
sebp
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.