내 질문 : 비교적 큰 데이터 세트에서도 CV를 수행해야합니까?
비교적 큰 데이터 세트가 있으며 데이터 세트에 기계 학습 알고리즘을 적용합니다.
PC가 빠르지 않기 때문에 CV (및 그리드 검색)에 시간이 너무 오래 걸립니다. 특히 많은 튜닝 매개 변수로 인해 SVM이 종료되지 않습니다. 따라서 CV를 수행하는 경우 상대적으로 작은 데이터를 선택해야합니다.
반면에 유효성 검사 세트도 커야하므로 훈련 세트와 크기가 같은 유효성 검사 세트를 사용하는 것이 좋습니다. (즉, CV 대신 매개 변수 조정에 큰 유효성 검사 세트를 사용합니다.)
그래서 이제 적어도 두 가지 옵션이 있습니다.
- 작은 데이터 세트에서 CV를 수행하십시오.
- CV없이 비교적 큰 트레이닝 세트 및 검증 세트를 사용합니다.
- 다른 생각.
가장 좋은 아이디어는 무엇입니까? 이론적이거나 실제적인 의견은 모두 환영합니다.