올바른 교차 검증 및 모델 선택 절차를 따를 때에도 모델 복잡성, 기간에 제한을 두지 않는 한 모델을 충분히 검색 하지 않으면 과적 합 이 발생 한다는 것을 이해 합니다. 더욱이 사람들은 종종 그들이 제공 할 수있는 보호를 약화시키는 데이터로부터 모델 복잡성에 대한 처벌을 배우려고 시도합니다.
내 질문은 : 위의 진술에 얼마나 많은 진실이 있습니까?
ML 실무자들은 종종 다음과 같이 말합니다. " 회사 / 실에서는 캐럿 이나 scikit-learn 과 같은 라이브러리에서 사용 가능한 모든 모델을 항상 사용하여 어떤 모델 이 가장 효과가 좋은지 확인 합니다." 나는 종종이 접근법이 교차 검증에 대해 진지하고 원하는 방식으로 홀드 아웃 세트를 유지 하더라도 쉽게 과적 합할 수 있다고 주장한다 . 또한 검색이 어려울수록 과도하게 적합 할 수 있습니다. 다시 말해, 과도한 최적화는 실제 문제 이며 체계적으로 대처하는 데 도움이되는 휴리스틱이 없습니다. 이런 식으로 생각하는 것이 잘못입니까?