연구에서 검증 정확도는 높지만 테스트 정확도는 낮 으면 어떻게해야합니까?


15

기계 학습 연구의 유효성 검사에 대한 특정 질문이 있습니다.

아시다시피, 머신 러닝 체제는 연구원들에게 훈련 데이터에 대한 모델을 훈련시키고 검증 세트에 따라 후보 모델 중에서 선택하고 테스트 세트에 대한 정확성을보고하도록 요청합니다. 매우 엄격한 연구에서 테스트 세트는 한 번만 사용할 수 있습니다. 그러나 논문을 출판하거나 제출하기 전에 테스트 정확도가 최신 결과보다 나올 때까지 성능을 개선해야하기 때문에 연구 시나리오가 될 수 없습니다.

이제 문제가 왔습니다. 50 %가 최첨단의 결과이며, 내 모델이 일반적으로 평균 50-51의 정확도를 달성 할 수 있다고 가정 해 보겠습니다.

그러나 필자의 최상의 검증 정확도 (52 %)는 테스트 정확도가 매우 낮습니다 (예 : 49 %). 그런 다음 유효성 검사를 더 이상 개선 할 수 없으면 전체 성능으로 49 %를보고해야합니다. 이것은 실제로 문제를 연구하지 못하게하지만 동료들에게는 중요하지 않습니다. 왜냐하면 그들은 52 % acc를 보지 못하기 때문에 이상치라고 생각합니다.

그래서 사람들은 보통 그들의 연구에서 어떻게합니까?

동일한 상황이 여전히 발생할 수 있기 때문에 ps k- 폴드 유효성 검사는 도움이되지 않습니다.

답변:


9

정의에 따르면 훈련 정확도 (또는 사용중인 메트릭)가 테스트보다 높으면 초과 적합 모델이 있습니다. 본질적으로, 모델은 더 큰 데이터 모집단에 적용 할 수없는 훈련 데이터에서 성능을 향상시키는 데 도움이되는 특정 사항을 배웠으므로 성능이 저하됩니다.

왜 k- 폴드 유효성 검사가 도움이되지 않을 것이라고 확신하지 않습니다. 이 모델의 목적은 모델이 과도하게 적합하지 않도록하는 것입니다. 데이터가 충분하지 않습니까? 이와 같은 진술은 특히 교차 검증 방법을 적극 권장 할 때 연구를 방어하려는 경우 중요합니다.

테스트 세트를 한 번만 사용할 수 없다고 말합니다 (더 작은 샘플 크기를 가정합니까?). 내 경험에 따르면 가장 일반적인 경로는 모델의 k 배 교차 검증입니다. 표본 크기가 100 인 10 배 CV를 예로 들어 보겠습니다. 분류 문제가 이진법으로 계산이 간단하다고 가정 해 봅시다. 따라서 데이터를 10 개의 다른 폴더 로 분할했습니다 . 그런 다음 모델을 9/10 배에 맞추고 1/10을 남겼습니다. 이 첫 번째 실행의 결과로 나타나는 혼동 행렬은 다음과 같습니다.

    0  1
0   4  1
1   2  3

그런 다음 다음 1/10 폴드를 남겨두고이 분석을 다시 반복하고 다른 9/10을 훈련시킵니다. 그리고 다음 혼란 매트릭스를 얻으십시오. 완료되면 10 개의 혼동 행렬이 있습니다. 그런 다음이 행렬을 합산하여 (100 개의 샘플을 모두 예측했습니다) 내 통계 (정확도, PPV, F1- 점수, Kappa 등)를보고합니다. 정확도가 원하는 곳에 있지 않으면 다른 많은 가능성이 있습니다.

  1. 모델을 개선해야합니다 (매개 변수 변경)
  2. 다른 머신 러닝 알고리즘을 시도해야 할 수도 있습니다 (모든 알고리즘이 동일하지는 않습니다)
  3. 더 많은 데이터가 필요합니다 (미묘한 관계를 찾기가 어렵습니다)
  4. 데이터 변환을 시도해야 할 수도 있습니다 (사용 된 알고리즘에 따라 다름)
  5. 종속 변수와 독립 변수 사이에 관계가 없을 수 있습니다

중요한 것은 훈련보다 테스트 메트릭 (예 : 정확도)이 낮다는 것은 새로운 예측 모델을 만들 때 원하는 것이 아니라 모델을 과적 합한다는 것을 나타냅니다.


답장을 보내 주셔서 감사합니다. 제가 관심있는 것은 기계 학습 기술을 적용하는 것이 아니라 출판물을위한 기계 학습 연구입니다. 종종 벤치 마크는 교육, 검증 및 테스트 세트의 표준 분할을 제공합니다. 또한 k- 폴드는 분산 만 줄입니다. 내 (평균) 유효성 검사가 발생하는 상황을 여전히 겪을 수 있습니다. 높지만 테스트 acc. 낮습니다.
Mou

모델을 약간 다시 디자인하면 모델 (및 가설 클래스)이 변경되어 특이 치를 무시할 수 있지만 가설에서 모델을 선택하기 때문에 하이퍼 파라미터 튜닝에는 효과가 없습니다. 수업. 그러나 실제로 우리 연구원들은 무한한 가설 클래스를 가지고 있습니다. 종종 정확성의 차이가 일반적으로 매우 작습니다 (예 : 0.1 %).
Mou

@ 무우, 나는 아직도 당신이 주요 질문이 무엇인지 조금 불확실하다고 생각합니다. 여러 가지 질문이있는 것 같습니다. 특이점을 다루는 것은 다른 주제입니다. 매개 변수를 최적화하거나 최종 모델을 평가하려고합니까? 이것은 다른 필드에만 해당 될 수 있지만 0.1 %의 변경은 매우 중요하지 않습니다. 당신은 내 대답에 나열된 옵션을 추구하거나 현재 모델과 데이터에서만 얻을 수 있다는 것을 받아 들일 수 있습니다. 모델은 여전히 ​​약간 적합하지만 과적 합한 것으로 보입니다.
cdeterman

동의합니다. 내 모델이 그렇게 좋지 않다는 것을 받아 들여야합니다. 그러나 며칠 전, 이력서가 높을 때. + 낮은 테스트 acc. 내 화면으로 넘어 가지 않고 내 모델은 세계 최고의 모델이었습니다. 지금은 아무것도 바꾸지 않았지만 아닙니다. 또한, cv acc.에서 52 %를 능가 할 것이라는 희망은 없습니다.
Mou

숫자를 변경하기 위해 무언가를 변경했거나 seed재현성을 설명하기 위해 설정하지 않은 임의 화가 있습니다 . 귀하의 이력서 절차가 반복되면 약간 다른 결과를 반환 할 수있는 임의의 무작위 화가 있다고 생각합니다 (그러나 이것은 단지 추측 일뿐입니다). 실제로 다른 모델이나 데이터 변환을 탐색하여 성능을 향상 시키려고 제안합니다.
cdeterman
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.