균형 잡힌 훈련 세트를 인공적으로 구성하는 것은 논쟁의 여지가 있으며 실제로 논쟁의 여지가 있습니다. 그렇게하면 훈련 세트의 균형을 맞추지 않은 것보다 실제로 더 잘 작동하는지 경험적으로 검증해야합니다. 인위적으로 테스트 세트의 균형을 잡는 것은 좋은 생각이 아닙니다. 테스트 세트는 레이블이없는 새로운 데이터 포인트를 나타내야합니다. 균형이 맞지 않을 것으로 예상되므로 모델이 불균형 테스트 세트를 처리 할 수 있는지 알아야합니다. (새 레코드의 균형이 맞지 않을 것으로 예상되는 경우 기존 레코드가 모두 불균형 인 이유는 무엇입니까?)
실적 통계와 관련하여 언제든지 원하는 정보를 얻을 수 있습니다. 불균형 세트에서 정확도가 가장 중요하지 않은 경우, 클래스뿐만 아니라 오 분류 비용도 불균형하므로 사용하지 마십시오. 정확도를 미터법으로 사용하고 항상 최고의 정확도를 사용하여 모든 모델 선택 및 하이퍼 파라미터 튜닝을 수행 한 경우 정확도를 최적화하는 것입니다.
나는 소수 계층을 긍정적 클래스로 생각합니다. 이것은 그들을 명명하는 일반적인 방법입니다. 따라서 아래에서 논의되는 정밀도와 회수는 소수 계급의 정밀도와 회수입니다.
- 중요한 것은 모든 소수 계급 레코드를 식별하는 것이라면 리콜 할 수 있습니다. 따라서 더 많은 오 탐지를 받아들입니다.
- 정밀도 만 최적화하는 것은 매우 이상한 생각입니다. 당신은 분류 자에게 소수 클래스를 과소 평가하는 것이 문제가 아니라고 말하고있을 것입니다. 높은 정밀도를 얻는 가장 쉬운 방법은 소수 계층을 선언 할 때주의를 기울이는 것입니다.
- 정밀도와 리콜이 필요한 경우 F- 측정을 수행 할 수 있습니다. 이는 정밀도와 리콜 사이의 조화 평균이므로 두 메트릭이 서로 다른 결과에 불이익을줍니다.
- 양방향으로 구체적인 오 분류 비용을 알고 있고 (클래스마다 다른 경우 올바른 분류의 이익) 알면 손실 함수에이를 모두 넣고 최적화 할 수 있습니다.