답변:
선택할 수있는 오류 메트릭 풀은 분류와 회귀에 따라 다릅니다. 후자에서는 하나의 연속 값을 예측하려고 시도하고 분류를 통해 "건강"또는 "건강하지 않음"과 같은 개별 클래스를 예측합니다. 언급 한 예에서, 제곱 평균 제곱 오차는 회귀에 적용 할 수 있고 AUC는 두 클래스로 분류 할 수 있습니다.
분류에 대해 좀 더 자세히 설명하겠습니다. ROC 곡선 아래 영역 인 측정 값으로 AUC를 언급했습니다.일반적으로 두 클래스의 이진 분류 문제에만 적용됩니다. 그러나 두 개 이상의 클래스에 대해 ROC 곡선을 구성하는 방법이 있지만 두 클래스에 대한 ROC 곡선의 단순성을 잃습니다. 또한, 선택 분류 기가 각 예측과 관련된 어떤 종류의 점수를 출력하는 경우에만 ROC 곡선을 구성 할 수 있습니다. 예를 들어 로지스틱 회귀는 두 클래스 각각에 대한 확률을 제공합니다. 단순성 외에도 ROC 곡선은 데이터 세트에서 양수와 음수로 표시된 인스턴스 간의 비율에 영향을받지 않으며 임계 값을 선택하지 않아도되는 장점이 있습니다. 그럼에도 불구하고 ROC 곡선 만 보는 것이 아니라 다른 시각화도 보는 것이 좋습니다. 정밀 리콜 곡선과 비용 곡선을 살펴 보는 것이 좋습니다.하나의 진정한 오류 측정은 모두 장단점이 있습니다.
이와 관련하여 내가 찾은 문헌은 다음과 같습니다.
분류자가 어떤 종류의 점수를 제공하지 않으면 진정한 긍정, 오탐, 참 부정 및 거짓 부정의 수를 포함 하는 혼동 행렬 에서 얻을 수있는 기본 측정으로 돌아 가야합니다 . 위에서 언급 한 시각화 (ROC, 정밀 회수, 비용 곡선)는 모두 분류기 점수의 다른 임계 값을 사용하여 얻은 이러한 표를 기반으로합니다. 이 경우 가장 널리 사용되는 방법은 F1-Measure 일 것입니다.
기존 답변에 몇 가지 생각을 더 추가하겠습니다.
연구 설계에 따라, 정확하거나 잘못 분류 된 표본의 전체 비율은 적절한 요약 일 수도 있고 그렇지 않을 수도 있습니다. 그로부터 얻을 수있는 결론은 연구 설계에 따라 달라질 것입니다. 테스트 데이터는 클래스? 분류 기가 사용되는 인구에 대해? 계층화 된 방식으로 수집 되었습니까? 이것은 분류 자의 대부분의 사용자가 예측 값에 더 관심이 있지만 민감도와 특이도는 훨씬 쉽게 측정 할 수 있다는 사실과 밀접한 관련이 있습니다.
일반적인 지침에 대해 문의하십시오. 일반적인 지침 중 하나는 알아야한다는 것입니다
이 질문에 대답 할 수 없으면 유용한 측정 항목 을 찾을 수 없습니다 .
분류 자 유효성 검사에서 무료 점심이없는 것처럼 조금 있습니다.
예상되는 오 분류 오류율은 내가 가장 많이 사용하고 본 방법입니다. ROC의 AUC는 일련의 분류 규칙을 측정 한 것입니다. 아이디어가 특정 분류자를 다른 분류기와 비교하는 경우 AUC는 적합하지 않습니다. 분류 규칙의 성능을 가장 직접적으로 나타 내기 때문에 어떤 형태의 분류 오류가 가장 적합합니다.
재 치환 추정치의 큰 편향과 휴가 율의 높은 편차로 인해 분류 오류율의 우수한 추정치를 찾는 데 많은 연구가 이루어졌다. 부트 스트랩과 부드러운 추정기가 문제가되었습니다. 교차 검증에 대한 부트 스트랩 개선에 대해서는 JASA 1983의 Efron 논문을 참조하십시오.
여기 에 Efron과 Tibshirami 의 1995 Stanford University 기술 보고서 가 저의 작업을 포함하여 문헌을 요약했습니다.