흥미로운 질문입니다. 나는 개인적으로 제품이 생산에 들어가는 것을 보지 못했지만 논리를 이해합니다.
이론적으로 배포 된 모델에서 볼 수있는 데이터가 많을수록 일반화하는 것이 좋습니다. 따라서 사용 가능한 전체 데이터 세트에서 모델을 학습 한 경우 전체 데이터 세트에서 예를 들어 기차 / 발 세트 (예 : ~ 90 %) 만 보았던 모델보다 일반화하는 것이 좋습니다.
이것에 대한 문제 (그리고 처음에 데이터를 기차 / val / 테스트 세트로 나누는 이유!)는 보이지 않는 데이터의 정확성에 대한 통계적 주장을 할 수 있기를 원하기 때문입니다. 모든 데이터 에 대해 모델을 다시 훈련시키는 즉시 더 이상 그러한 주장을 할 수 없습니다.
[편집하다]
여기 에 Cross-Validated와 관련된 질문 이 있습니다. 여기 에서 허용 된 답변은 저에게 비슷한 지적을하고 다른 일을하는 방법을 언급합니다.
우리는 반복합니다.
- 모델 훈련
- →
- 모델 변경
- 1 단계로 이동
- 테스트 세트에서 성능 평가
- 5 단계에서 찾은 테스트 정확도를 가진 현재 모델
결국 테스트 세트에서 큰 점수를 얻으면 일반화되었다고 주장 할 수 있습니다. 따라서 전체 데이터 세트에 대한 재교육이 향후 보이지 않는 데이터의 성능을 향상시킬 수 있는지에 대한 질문 은 엄격하게 테스트 할 수있는 것이 아닙니다. 다른 관련 문제 세트에서 더 나은 성능의 경험적 증거는 결정을 내려야 할 시점의 유일한 소스 또는 지침이 될 것입니다.
완전성 검사는 최종 재 훈련 된 모델을 원래 테스트 세트에서 다시 테스트하는 것입니다. 모델이 기차 / 발 세트 만 보았을 때보 다 점수가 높을 것으로 예상합니다. 실제로 훈련 중에 테스트 세트를 보았 기 때문입니다. 이것이 미래의 모든 경우에이 최종 모델이 우수하다는 것을 100 % 확신 할 수는 없지만 적어도 주어진 데이터로 얻을 수있는 것만 큼 좋습니다.
아마도 당신이하는 말 (아마도 학문적으로 움직일 수있는)을하는 것에 대해 더 엄격한 논증이 있을지 모르지만, 실제적인 적용에는 호소력이있는 것 같습니다!