분류 문제를 해결하는 일반적인 방법은 후보 모델 클래스를 식별 한 다음 교차 검증과 같은 일부 절차를 사용하여 모델 선택을 수행하는 것입니다. 일반적으로 가장 높은 정확도를 가진 모델을 선택하거나 다음과 같은 문제 별 정보를 인코딩하는 관련 기능을 선택합니다..
최종 목표가 정확한 분류 자 (정확도의 정의가 다시 문제에 의존하는 경우)를 생성하는 것으로 가정하고, 어떤 상황에서 정확도, 정밀도, 리콜과 같은 부적절한 것에 반해 적절한 점수 규칙 을 사용하여 모델 선택을 수행하는 것이 더 나은지 등? 또한 모델 복잡성 문제를 무시하고 모든 모델을 똑같이 고려한다고 가정합니다.
이전에는 절대 말하지 않았을 것입니다. 공식적인 의미에서 분류는 회귀보다 더 쉬운 문제이며, [1], [2]보다 이전보다 더 엄격한 범위를 도출 할 수 있습니다.). 또한, 확률을 정확하게 일치 시키려고 할 때 의사 결정 경계 가 잘못 되거나 과적 합 될 수 있습니다 . 그러나 여기 의 대화 와 그러한 문제와 관련한 커뮤니티의 투표 패턴을 기반 으로이 견해에 의문을 제기했습니다.
- 데 브로이, 루크 패턴 인식의 확률론. Vol. 31. Springer, 1996., 섹션 6.7
- Kearns, Michael J. 및 Robert E. Schapire. 확률 론적 개념에 대한 효율적인 배급없는 학습. 컴퓨터 과학의 기초, 1990. 절차, 31 연례 심포지움. IEEE, 1990.
이 진술은 조잡 할 수 있습니다. 나는 구체적으로 양식의 레이블이 지정된 데이터를 의미합니다. 와 과 조건부 확률을 정확하게 추정하는 것보다 결정 경계를 추정하는 것이 더 쉬운 것 같습니다.