분류를 위해 신경망을 훈련하려고하지만 레이블이 다소 시끄 럽습니다 (라벨의 약 30 %가 잘못되었습니다).
교차 엔트로피 손실이 실제로 작동하지만이 경우 더 효과적인 대안이 있는지 궁금합니다. 또는 교차 엔트로피 손실이 최적입니까?
확실하지는 않지만 교차 엔트로피 손실을 어느 정도 "클리핑"하여 하나의 데이터 포인트에 대한 손실이 상한보다 크지 않을 것이라고 생각하고 있습니까?
감사!
업데이트
Lucas의 답변에 따르면, 나는 softmax 함수 의 예측 출력 및 입력에 대한 미분에 대해 다음을 얻었습니다 . 따라서 본질적으로 파생 상품에 스무딩 용어 를 추가하는 것 같습니다 .
원래 교차 엔트로피 손실에 대한 파생 상품 :
업데이트
방금 Lucas의 답변과 동일한 공식을 적용하지만 해석이 다른 Google의 논문 을 읽었습니다 .
섹션 7 레이블 평활화를 통한 모델 정규화
그러나이 문제 (교차 엔트로피 손실)는 두 가지 문제를 일으킬 수 있습니다. 먼저, 과적 합을 초래할 수 있습니다. 모형이 각 훈련 예에 대한 근거 정보에 완전한 확률을 할당하는 것을 배우면 일반화 할 수는 없습니다. 둘째, 가장 큰 로짓과 다른 모든 의 차이가 커지도록 장려하며, 경계 경사 와 결합 하면 모형의 적응 능력이 감소합니다. 직관적으로, 이것은 모델이 예측에 대해 너무 확신하기 때문에 발생합니다.
그러나 평활화 용어를 예측에 추가하는 대신,이를 기초 사실에 추가하여 도움이되는 것으로 나타났습니다.
K = 1000 클래스의 ImageNet 실험에서 u (k) = 1/1000 및 = 0.1을 사용했습니다. ILSVRC 2012의 경우 상위 1 개 오류와 상위 5 개 오류 모두에 대해 약 0.2 % 절대 값이 지속적으로 개선되었습니다.