Train vs Test Error Gap과 과적 합과의 관계 : 상충되는 조언 조정


14

열차와 테스트 오차를 비교하는 방법, 특히 둘 사이에 간격이있을 경우 처리 방법에 대해 상충되는 조언이있는 것 같습니다. 나에게 충돌하는 것처럼 보이는 두 개의 학교가있는 것 같습니다. 두 사람을 조정하는 방법을 이해하려고합니다 (또는 여기서 누락 된 것을 이해합니다).

생각 # 1 : 열차와 테스트 세트 성능 사이의 간격만으로는 과적 합을 나타내지 않습니다.

먼저, ( 훈련 및 테스트 오류 비교가 과적 합을 나타내는 방법은 무엇입니까? ), 열차와 시험 세트의 차이만으로 과적 합을 나타낼 수 없다는 생각입니다. 이것은 교차 검증 기반 하이퍼 파라미터 튜닝 이후에도 열차와 테스트 오류 사이의 간격이 다소 크게 유지 될 수있는 앙상블 트리 방법과 같은 실제 경험에 동의합니다. 그러나 유효성 검사 오류가 다시 발생하지 않는 한 (모델 유형에 관계없이) 좋습니다. 적어도 그 생각입니다.

생각 # 2 : 열차와 시험 성능 사이에 차이가있는 경우 : 과적 합에 맞서 싸우는 일을하십시오

그러나 열차와 테스트 오류 사이의 간격이 과적 합을 나타내는 매우 훌륭한 출처에서 알 수있는 조언이 있습니다. 예를 들면 다음과 같습니다. "딥 러닝의 너트와 볼트"Andrew Andrew (환상적인 대화) https://www.youtube.com/watch?v=F1ka6a13S9I : 타임 스탬프 48:00에 플로우 차트를 그리는 위치 "열차 세트 오류가 낮고 열차-기차 오류가 높으면 정규화를 추가하거나, 더 많은 데이터를 얻거나, 모델 아키텍처를 변경해야합니다."라고 말합니다.

어느 쪽이 나를 데려 오는가 ... : 내가 여기서 뭔가를 놓치고 있는가? 이것은 모델 고유의 경험 법칙입니까? 아니면 단순히 두 개의 다른 사고 학교가 있습니까?

답변:


4

나는 이것이 상충되는 조언이라고 생각하지 않습니다. 우리가 실제로 관심을 갖고있는 것은 훈련과 테스트 세트 성능 사이의 격차를 줄이는 것이 아니라 우수한 샘플 외부 성능입니다. 테스트 세트 성능이 샘플 외부 성능을 나타내는 경우 (예 : 테스트 세트가 충분히 크고 오염되지 않고 모델이 적용될 데이터의 대표적인 샘플 인 경우) 테스트 세트 간격에 관계없이 과적 합하지 않습니다.

그러나 종종 간격이 크면 모델에 더 많은 편향을 도입 / 정규화하여 테스트 세트 성능을 향상시킬 수 있음을 나타낼 수 있습니다. 그렇다고 갭이 작을수록 더 나은 모델을 의미하는 것은 아닙니다. 훈련과 테스트 세트 성능 사이에 차이가 없거나 거의없는 경우, 우리는 과적 합을 하지 않기 때문에 정규화를 추가하거나 모델에 더 많은 편견을 도입해도 도움이되지 않습니다.


흥미로운 점. "열차와 테스트 사이의 간격이 없다"는 것은 과적 합이 없음을 의미하지만 "열차와 테스트 사이의 일부 간격"은 과적 합을 의미하거나 그렇지 않을 수 있습니다. 우리는 그 논리에 의해 이동하는 경우, 앤드류 응의 이야기의 순서도 약간 오해의 소지가 보인다 슬라이드 당신이 간격이있는 경우, 즉 알 수 있듯이이 슬램 덩크로 아닙니다 시도 정규화 이상의 데이터를 받고,하지만 그것은 도움이되지 않을 수 있습니다. 동의하겠습니까?
ednaMode

1
내 경험으로는 그렇습니다.
rinspy

"열차와 테스트 수단 사이에 간격이 없다고해서 반드시 과적 합이 발생하는 것은 아닙니다." 무한한 양의 데이터가 있으면 모델이 과적 합하더라도 열차와 테스트간에 차이가 없습니다. 그래서 나는 그 진술이 유효하다고 생각합니다. 당신은 더 많은 가정이 필요합니다.
LKS

@LKS 나는 여기에 과적 합하여 무슨 뜻인지 잘 모르겠습니다. 데이터 분포가 일정하게 유지된다고 가정 할 때, 샘플 외부 성능은 항상 샘플 내부 성능보다 작거나 같습니다. 따라서 최고의 갭은 제로 갭입니다. 틈새없이 어떻게 초과 피팅 할 수 있습니까?
rinspy

@rinspy 훈련과 테스트 데이터 사이의 수치 격차로 과적 합을 정의하면 진술이 정확합니다. 그러나 모델이 수행하는 작업에 대해 더 많이 추론하고 싶습니다. 예를 들어, 우리는 차수가 3 인 다항식 함수를 가지며 그 결과 작은 가우시안 노이즈가 포함됩니다. 유한 표본이 있고 적합도 5도 다항식을 사용하는 경우 표본 내 (예측) 성능 사이에 큰 차이가 있습니다. 그러나 우리가 거의 무한한 샘플을 그릴 수 있다면, 순수하게 암기하는 모델은 샘플 오차가 0이 될 것입니다.
LKS
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.