답변:
TLDR; 정확성보다는 손실을 모니터링
나는받은 답변이 요점을 놓치고 누군가가 같은 문제가 있다고 생각하기 때문에 내 자신의 질문에 대답 할 것입니다.
먼저, 신경망을 훈련 할 때 조기 정지를 사용하는 것이 완벽하게 정상임을 신속하게 설명하겠습니다 (Goodfellow 등의 Deep Learning 서적, 대부분의 DL 논문 및 keras의 EarlyStopping 콜백 설명서 참조).
이제 모니터링 할 수량과 관련하여 정확도보다 손실을 선호합니다. 왜? 손실은 모델이 예측에 대해 얼마나 확실한지 정량화합니다 (기본적으로 오른쪽 클래스에서는 1에 가까우며 다른 클래스에서는 0에 가까움). 정확성은 단지 정확한 예측의 수를 설명합니다. 마찬가지로 확률보다는 하드 예측을 사용하는 모든 메트릭에는 동일한 문제가 있습니다.
분명히, 어떤 메트릭을 선택하든 트레이닝 세트가 아닌 유효성 검사 세트에서 계산해야합니다.
내 생각에 이것은 주관적이고 문제에 따라 다릅니다. 모델을 더 잘 초점을 맞추는 방법에 대한 결정을 내릴 수 있으므로 운전 메트릭으로 마음에 가장 중요한 요소를 사용해야합니다.
예를 들어, 보고서에서 / 상사 에게 F1- 점수 를보고하고 (실제로 관심이 있다고 가정 할 경우) 해당 메트릭을 사용하는 것이 가장 적합 할 수 있습니다. 예를 들어, F1- 점수는 정밀도 와 리콜 을 고려합니다. 즉, 두 개의보다 세분화 된 메트릭 간의 관계를 설명합니다 .
이러한 것들을 종합하면 정상 손실 이외의 점수를 계산하는 것이 개요와 훈련 반복 과정에서 최종 지표가 어떻게 최적화되는지 알기에 좋습니다. 그 관계는 아마도 당신에게 문제에 대한 더 깊은 통찰력을 줄 수 있습니다.
그러나 유효성 검사 손실을 최적화하면 교육을 더 오래 실행할 수 있으므로 결국에는 F1- 점수 가 더 높아질 수 있으므로 일반적으로 여러 옵션을 시도하는 것이 가장 좋습니다 . 정밀성과 리콜은 일부 지역 최소 점 주위에서 흔들리면서 거의 정적 인 F1 점수를 생성하므로 훈련을 중단합니다. 순수한 손실에 대해 최적화 한 경우 더 오래 훈련 할 수 있도록 손실이 충분히 변동 된 것으로 기록되었을 수 있습니다.
현재 신경망을 훈련 중이며 조기 중지 기준을 구현하는 데 사용할 유효성, 즉 유효성 검사 손실 또는 유효성 검사 세트에서 계산 된 정확도 / f1score / auc / 무엇과 같은 메트릭을 결정할 수 없습니다.
딥 네트워크를 훈련하는 경우 조기 중지를 사용하지 않는 것이 좋습니다. 딥 러닝에서는 그리 관습 적이 지 않습니다. 대신, 일반화를 위해 드롭 아웃과 같은 다른 기술을 사용할 수 있습니다. 당신이 그것을 주장한다면, 기준을 선택하는 것은 당신의 작업에 달려 있습니다. 불균형 데이터가있는 경우 F1
교차 검증 데이터에서 점수 를 사용 하고 평가해야합니다. 균형 잡힌 데이터가있는 경우 교차 유효성 검사 데이터의 정확도를 사용하십시오. 다른 기술은 작업에 크게 의존합니다.
귀하의 데이터에 잘 맞는 모델을 찾고 그 후에 탈락을 사용하는 것이 좋습니다. 이것은 사람들이 심층 모델에 사용하는 가장 관습적인 것입니다.
cross_entropy
손실은MSE
또는 보다 선호MAE
됩니다. 이 기사 의 요약 섹션 과 통계에 대한이 게시물을 확인하십시오 .