CrossValidated에는 모델 선택 및 교차 검증 주제에 대한 수많은 스레드가 있습니다. 몇 가지가 있습니다 :
- 내부 대 외부 교차 검증 및 모델 선택
- DikranMarsupial의 @ 상단의 대답 에 기능 선택과 교차 검증
그러나 이러한 스레드에 대한 답변은 상당히 일반적이며 교차 검증 및 모델 선택에 대한 특정 접근 방식의 문제를 강조합니다.
같은 일을하기 위해 가능한 한 콘크리트 , 우리는 RBF 커널과 SVM으로 작동하는지 예를 들어 말 : , 그리고 나는 기능의 데이터 세트가 X 와 라벨의 Y를 , 내가 원하는 것을
- 내 모델의 가능한 가장 좋은 값을 찾으십시오 ( andC )
- 내 데이터 세트로 SVM 교육 (최종 배포)
- 이 오차에 대한 일반화 오차와 불확실성 (분산)을 추정하십시오.
그렇게하기 위해 개인적으로 그리드 검색을 수행합니다. 예를 들어 와 의 가능한 모든 조합을 시도합니다 . 간단히하기 위해 다음 범위를 가정 할 수 있습니다.γ
더 구체적으로, 전체 데이터 세트를 사용하여 다음을 수행합니다.
- 모든 (들어 , 의) 한 쌍, 나는 반복 (예를 들어 100 임의 반복)를 반복 할 교차 검증을 -fold (예 : ), 내 데이터 세트, 즉 내가 내 SVM 훈련에 주름 및 평가 폴드 왼쪽에 오류가 발생하여 모든 폴드를 반복합니다 . 전반적으로 100 x 10 = 1000 테스트 오류를 수집합니다.γ K K = 10 K - 1 K
- 이러한 각 ( , ) 쌍에 대해 1000 테스트 오류 의 평균과 분산을 계산합니다 .γ μ M , σ M
이제 전체 데이터 세트에서 최종 SVM을 교육하는 데 사용할 최상의 모델 (최상의 커널 매개 변수)을 선택하고 싶습니다. 내 이해는 오류 평균 이 가장 낮고 분산이 및 모델을 선택하는 것이 옳은 선택 모델의 이 경우 훈련시 모델의 일반화 오류 바이어스 및 분산에 대한 최선의 추정치입니다 전체 데이터 세트.σ M μ M σ M
그러나 위의 스레드에서 답변을 읽은 후 배포 및 / 또는 오류 (일반화 성능)를 추정하기위한 최상의 SVM을 선택하기위한이 방법에 결함이 있으며 더 나은 방법을 선택할 수 있다는 인상을 받았습니다 최고의 SVM 및 오류보고. 그렇다면 무엇입니까? 구체적인 답변을 찾고 있습니다.
이 문제에 집착, 어떻게 구체적으로 내가 선택할 수있는 최선의 모델을 하고 적절하게 그 일반화의 오류를 추정 ?