교차 검증을 사용하여 다양한 머신 러닝 기술에 대한 최상의 튜닝 매개 변수를 찾는 것이 데이터 스누핑과 다른지 궁금합니다.
귀하의 우려는 올바른 위치에 있으며이 주제에 관한 많은 문헌이 있습니다.
- Cawley, GC & Talbot, NLC : 성능 평가에서 모델 선택 및 후속 선택 바이어스에 대한 과적 합, Journal of Machine Learning Research, 11, 2079-2107 (2010).
- Boulesteix, A.-L .: 생물 정보학 연구에서의 낙관론, Bioinformatics, 26, 437-439 (2010). DOI : 10.1093 / 생물 정보학 / btp648
- Jelizarow, M .; 길레 모트, V .; 테넨 하우스, A .; Strimmer, K. & Boulesteix, A.-L .: 생물 정보학의 낙관론 : 삽화, Bioinformatics, 26, 1990-1998 (2010). DOI : 10.1093 / 생물 정보학 / btq323
문제는 교차 검증을 통한 하이퍼 파라미터 튜닝이 데이터 중심 최적화 프로세스이며 여전히 데이터 교체에 적합하지는 않습니다 (재 치환 오류에 의한 튜닝보다는 여전히). 튜닝 독립 검증 결과를 "독립적 인"성능 측정으로 사용하려는 것은 파이를 먹고 (= 튜닝) 유지 (= 최종 모델 성능을 측정)하는 방법입니다.
그렇다고 하이퍼 파라미터 튜닝에 교차 검증을 사용해서는 안됩니다. 단지 한 가지 목적으로 만 사용할 수 있음을 의미합니다. 검증 목적으로 모델 성능을 최적화하거나 측정하십시오.
해결책은 튜닝 된 하이퍼 파라미터로 얻은 모델의 품질을 측정하기 위해 독립적 인 검증을 수행해야한다는 것입니다. 이것을 중첩 또는 이중 유효성 검사라고합니다. 이 주제에 대한 여러 가지 질문과 답변이 있습니다.
개념적으로, 훈련에는 "일반적인"모델 파라미터뿐만 아니라 하이퍼 파라미터에 맞는 (자동 튜닝) 모든 종류의 멋진 단계가 포함되어 있습니다. 따라서 λ의 데이터 중심 최적화는 분명히 모델 교육의 일부입니다.
경험상 모델 학습은 새로운 사례에 대한 예측을 생성 할 수있는 즉시 사용할 수있는 최종 블랙 박스 기능을 사용하기 전에 수행해야하는 모든 것이라고 말할 수 있습니다.
추신 : 내 필드에서 "유효성 검사"는 최종 모델이 목적에 적합 하다는 것을 입증하고 다른 사람들이 유효성 검사 대신 테스트를 호출 하기 때문에 테스트 대 유효성 검사 용어가 매우 혼란 스럽다는 것을 알았습니다. 내부 테스트 세트 "튜닝 테스트 세트"및 외부 "최종 유효성 검사 테스트 세트"등을 선호합니다.
최신 정보:
따라서 내 모델 (이 경우 내 튜닝 매개 변수)이 외부 검증에 실패하면 어떻게해야합니까?
일반적으로 이것은 아무 일도 일어나지 않습니다. 이러한 장애를 일으킬 수있는 일반적인 상황이 있습니다. 그리고 내가 알고있는 모든 상황은 과잉 상황입니다. 정규화는 필요한 교육 사례 수를 줄이는 데 도움이되지만 데이터 기반 최적화에는 많은 양의 데이터가 필요하다는 점에 유의해야합니다.
내 추천 :
일반적으로 어떤 성과를 달성해야하는지, 의심 할만한 외모로 생각할만한 성과와 같은 기대치가 이미 높아야합니다. 또는 달성해야 할 성능과 기준 성능을 지정하십시오. 그것과 사용 가능한 훈련 사례의 수 (당신이 결정한 분리 계획의 경우)에서 내부 (동조) 테스트에 대한 예상 불확실성을 계산하십시오. 그 불확실성이 의미있는 비교를 할 수 없다는 것을 나타내면 데이터 기반 최적화를 수행하지 마십시오.
선택한 λ 에서 얻은 예측 과 자동 튜닝 절차에서 찾은 최적 λ가 얼마나 안정적인지 확인해야합니다 . 데이터의 다른 분할에 대해 λ가 합리적으로 안정적이지 않으면 최적화가 작동하지 않습니다.
데이터 중심 최적화를 수행 할 수 없거나 결국 작동하지 않는 것을 발견 한 경우, 유사한 데이터에 대한 경험에서 전문가 지식으로 λ를 선택할 수 있습니다. 또는 최적화에 실패했다는 사실을 알게되면 더 강력한 정규화가 필요합니다. 실패로 이어지는 과적 합은 너무 복잡한 모델에 적용됩니다.