검증 정확도가 왜 변동합니까?


30

MRI 데이터를 사용하여 암에 대한 반응을 예측하는 4 계층 CNN이 있습니다. ReLU 활성화를 사용하여 비선형 성을 도입합니다. 열차 정확도와 손실은 각각 단조 증가하고 감소합니다. 그러나 테스트 정확도가 크게 변동하기 시작합니다. 학습 속도를 변경하려고 시도하고 레이어 수를 줄였습니다. 그러나 변동을 멈추지 않습니다. 나는이 답변을 읽고 그 답변의 지시를 따르려고했지만 다시 운이 아닙니다. 아무도 내가 어디로 잘못 가고 있는지 알아낼 수 있습니까?

스크린 샷



예, 그 답을 읽었습니다. 유효성 검사 데이터를 섞는 것이 도움이되지 않음
Raghuram

4
코드 스 니펫을 공유하지 않았으므로 아키텍처에서 무엇이 잘못되었는지 말할 수 없습니다. 그러나 스크린 샷에서 교육 및 유효성 검사 정확도를 확인하면 네트워크가 과적 합하고 있음이 분명합니다. 여기서 코드 스 니펫을 공유하면 더 좋습니다.
Nain

당신은 얼마나 많은 샘플을 가지고 있습니까? 아마도 변동이 실제로 중요하지 않을 수도 있습니다. 또한, 정확도는 끔찍한 측정입니다
rep_ho

검증 정확도가 변동 할 때 앙상블 접근 방식을 사용하는 것이 좋은지 누군가가 나를 도울 수 있습니까? 앙상블을 통해 좋은 가치로 변동하는 validation_accuracy를 관리 할 수 ​​있었기 때문입니다.
Sri2110

답변:


26

정확도의 정의를 올바르게 이해하면 정확도 (정확하게 분류 된 데이터 포인트의 %)가 MSE (평균 제곱 오차)보다 덜 누적됩니다. 그렇기 때문에 loss정확도가 변동하는 동안 빠르게 증가하고 있음을 알 수 있습니다 .

직관적으로 이것은 기본적으로 예제의 일부가 무작위로 분류 되어 정확한 랜덤 추측 횟수가 항상 변동하므로 변동이 발생 함을 의미합니다 (코인이 항상 "헤드"를 반환해야하는 경우 정확도를 상상하십시오). 기본적으로 노이즈에 대한 민감도 (분류가 임의의 결과를 생성 할 때)는 과적 합의 일반적인 정의입니다 (wikipedia 참조).

통계 및 기계 학습에서 가장 일반적인 작업 중 하나는 "모델"을 일련의 훈련 데이터에 맞추는 것이므로 훈련되지 않은 일반 데이터를 신뢰할 수있게 예측할 수 있습니다. 과적 합에서 통계 모델은 기본 관계 대신 임의의 오류 또는 잡음을 설명합니다.

과적 합의 또 다른 증거는 손실이 증가하고 손실이 더 정확하게 측정되며 시그 모이 드 / 임계 값에 의해 찌그러지지 않으면 시끄러운 예측에 더 민감하다는 것입니다 (손실 자체의 경우). 직관적으로, 네트워크가 출력에 대해 너무 확신하는 상황 (잘못된 경우)을 상상할 수 있으므로 임의의 오 분류의 경우 임계 값에서 멀리 떨어진 값을 제공합니다.

케이스와 관련하여 모델이 올바르게 정규화되지 않은 이유는 다음과 같습니다.

  • 충분한 데이터 포인트, 너무 많은 용량
  • 주문
  • 기능 스케일링 / 정규화가 없거나 잘못되었습니다.
  • ααα

가능한 해결책:

  • 더 많은 데이터 포인트 확보 (또는 기존 포인트 세트를 인위적으로 확장)
  • 하이퍼 파라미터로 재생 (예 : 용량 증가 / 감소 또는 정규화 기간)
  • 정규화 : 탈락 시도, 조기 중지 등

"손실을보다 정확하게 측정하면 시그 모이 드 / 임계 값에 의해 찌그러지지 않기 때문에 시끄러운 예측에 더 민감합니다."임계 값에 동의하지 않지만 손실 함수로 이진 크로스 엔트로피를 사용하는 경우 시그 모이 드는 여전히 재생됩니다. 역할.
바브

1
학습률과 sgd에 대한 최소값 누락 : 최소값에 도달하면 과적 합을 의미 할 것입니다 (훈련 세트에서 최소값이므로)
Jan Kukacka

@Berkmeister true, 나는 약간의 표현을했습니다 (편집 참조). 손실이 증가한다는 것은 숙지되지 않은 기능이 사용되고 있다는 신호입니다.
dk14

@ JanKukacka 당신은 글로벌 최소를 의미합니까? 나는 지역 최소 점 (실제로 지역 최소 점 근처)을 암시했다-의미가 너무 작 으면 적합하지 않다는 의미입니다. 아마, 나는 그것을 더 신중하게 설명해야합니다 (편집 참조).
dk14

@ dk14 실제로 세계 최소값에 도달 할 수 없다고 가정하므로 로컬 최소값을 의미합니다. 너무 멀리 있으면 몸에 잘 맞지 않을 수 있지만 너무 가까이 있으면 과잉 몸에 잘 맞습니다. Moritz Hardt의 흥미로운 연구가 있습니다. " 지속적으로 훈련하고 더 잘 일반화하십시오 : 확률 적 경사 하강의 안정성"( arxiv.org/abs/1509.01240 )은 SGD를 이용한 훈련시 훈련과 시험 오차의 관계를 제한합니다.
Jan Kukacka

6

이 질문은 오래되었지만 아직 지적되지 않았으므로 이것을 게시하십시오 :

가능성 1 : 훈련 세트 또는 유효성 검사 세트에 일종의 사전 처리 (제로 의미, 정규화 등)를 적용하고 있지만 다른 것은 아닙니다. .

가능성 2 : 트레이닝 중에 다르게 수행하고 처음부터 추론하는 일부 레이어를 구축 한 경우 모델이 잘못 구현 될 수 있습니다 (예 : 트레이닝 중에 배치 정규화에 대한 이동 평균 및 이동 표준 편차가 업데이트됩니까?) 드롭 아웃을 사용하는 경우 가중치가 적절하게 조정됩니다 추론?). 코드가 이러한 것들을 처음부터 구현하고 Tensorflow / Pytorch의 내장 함수를 사용하지 않는 경우에 해당됩니다.

가능성 3: 모두 지적했듯이 과적 합. 유효성 검사 정확도가 에포크 3에서 50 %로 고정되어 있기 때문에 특정 상황에서 다른 두 가지 옵션이 더 가능성이 높다는 것을 알았습니다. 일반적 으로이 문제가 후기 단계에서 발생하면 과적 합에 대해 더 걱정할 것입니다 (매우 구체적인 문제가없는 한 손에).


나는 완전히 종류의 유사의 것이 아니라 문제, 여기에 자세한 내용은 데 : stackoverflow.com/questions/55348052/... 내 경우를, 사실, 검증 "정확도 테스트 데이터와 훈련 도중 일관된 높은 정확성을해야합니까 "(손실이 아님)이 훈련 정확도보다 높습니다. 그러나 그것이 수렴하고 진동하지 않는다는 사실은 내가 과적 합을 생각하게 만드는 반면, 일부는 그렇지 않다는 것을 암시합니다.
dusa

1
이것은 주어진 답변에 대한 가장 타당한 설명입니다. 높은 학습률과 함께 높은 배치 정규화 운동량 (예 : 0.999 또는 심지어 Keras 기본값 0.99)도 레이어 통계가 매우 뒤 떨어짐에 따라 훈련 및 평가에서 매우 다른 동작을 생성 할 수 있습니다. 이 경우 운동량을 0.9와 같은 것으로 줄이면 트릭을 수행해야합니다. 나는 OP와 비슷한 문제가 있었고 이것은 트릭을했다.
kristjan

5

@ dk14 님의 답변에 추가. 모델 을 올바르게 정규화 한 후에도 여전히 변동 이 나타나는 경우 다음과 같은 이유가있을 수 있습니다.

  • 검증 세트에서 무작위 샘플 사용 : 각 평가 단계에서 검증 세트가 다르므로 검증 손실도 있습니다.
  • 가중 손실 함수 사용 (고급 불균형 클래스 문제의 경우 사용). 기차 단계에서는 클래스 가중치를 기반으로 손실 함수를 측정하는 반면, 개발 단계에서는 가중치없는 손실을 계산합니다. 이 경우 네트워크가 수렴하기 시작하지만 각 기차 단계 후 유효성 검사 손실이 많이 변동될 수 있습니다. 그러나 더 큰 그림을 기다리는 경우 네트워크가 실제로 변동이 심하게 나타나는 최소 점으로 수렴하고 있음을 알 수 있습니다 (예를 들어 첨부 된 이미지 참조).여기에 이미지 설명을 입력하십시오여기에 이미지 설명을 입력하십시오

2

확실히 과적 합. 교육 데이터 정확도와 테스트 데이터 간 격차는 교육에 과도하게 적합하다는 것을 나타냅니다. 정규화가 도움이 될 수 있습니다.


1

이진 분류 문제에 대한 유효성 검사 정확성 (제 생각에)은 약 50 % "변동"합니다. 즉, 모델이 완전히 임의의 예측을 제공합니다 (때로는 샘플 수가 적을수록, 때로는 샘플 수가 적을 수도 있음). 일반적으로 모델은 동전을 뒤집는 것보다 낫지 않습니다.

{0;1}

어쨌든 다른 사람들이 이미 지적했듯이 모델에 과도한 오버 피팅이 발생했습니다. 내 생각 엔 문제가 너무 복잡 해서 데이터에서 원하는 정보를 추출하는 것이 매우 어렵다는 것입니다. 이러한 간단한 end2end 훈련 된 4 계층 conv-net은 그것을 배울 기회가 없습니다 .


0

상황에 따라 시도 할 수있는 몇 가지 방법이 있습니다. 먼저 배치 크기를 늘려서 미니 배치 SGD가 크게 방황하지 않도록하십시오. 두 번째로 학습 속도를 조정하십시오. 셋째, wrt 기능에 대한 학습 속도를 조정할 수있는 Adam 또는 RMSProp와 같은 다른 최적화 프로그램을 사용해보십시오. 가능하면 데이터를 보강하십시오. 마지막으로, Yarin Gal https://arxiv.org/abs/1506.02158 의 흥미로운 작업 인 드롭 아웃 근사법을 통해 베이지안 신경망을 사용해보십시오.


0

더 작은 네트워크를 사용해 보셨습니까? 훈련 정확도가> .99에 도달 할 수 있다고 생각하면 네트워크에 데이터를 완전히 모델링하기에 충분한 연결이있는 것처럼 보이지만 임의로 학습하는 (즉, 과적 합) 외부 연결이있을 수 있습니다.

내 경험상 ResNet, VGG 및 더 간단한 네트워크와 같은 다양한 네트워크를 시도하여 소규모 네트워크로 안정화하기위한 홀드 아웃 유효성 검사 정확도를 얻었습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.