k- 겹 교차 검증 을 통해 최종 모델을 만들기 위해 모든


13

k- 겹 교차 검증을 수행 할 때 한 번에 하나를 제외한 모든 접기를 가리키고 예측 한 다음이 프로세스를 번 반복하여 정확도 메트릭을 얻는다는 것을 이해합니다 . 그런 다음 모든 인스턴스에 대해 정확도 측정 항목을 실행할 수 있습니다 (정확도, 리콜, 정확하게 분류 된 비율). 매번 계산 한 다음 결과를 평균화 한 것과 같아야합니다 (잘못된 경우 수정).k

원하는 최종 결과는 최종 모델입니다.

예측 세트를 위의 방법으로 얻은 정확도 메트릭이있는 모델 로 만들기 위해 얻은 모델의 평균을 계산 합니까?k

답변:


15

k

교차 검증 실험 결과 데이터에서 Support Vector Machine이 Naive Bayes보다 성능이 우수하거나이 특정 데이터 세트에 대해 분류기의 하이퍼 매개 변수를 c로 설정해야한다는 것을 알 수 있습니다. 이 지식으로 무장 한 후 사용 가능한 모든 데이터를 사용하여 "생산"분류기를 훈련시키고 문제에 적용하십시오.

대부분의 경우 여러 모델의 평균을 계산하는 방법이 명확하지 않습니다. 예를 들어, 3 개의 의사 결정 트리 또는 가장 가까운 이웃 분류기의 평균은 얼마입니까?

교차 검증 결과는 보증이 아니라 추정치이며 생산 분류 기가 유사한 품질 (및 수량)의 데이터로 훈련 된 경우 이러한 추정치가 더 유효하다는 점을 명심해야합니다. 추정을 사용하여 추론을 수행하는 방법을 개발하는 데 상당한 노력이있었습니다. 즉, 통계적으로 건전한 방법으로, 그 방법 A는 일반적으로 이들 데이터에 대한 방법 B보다 우수하다.


2
추론에 k- 폴드 교차 검증 추정을 사용하는 것에 대한 좋은 참고 자료는 무엇입니까? 나는 당신이 좋은 공유가 있다면 그것에 대해 읽고 싶습니다.
tentaclenorm

1
괜찮은 곳은 iro.umontreal.ca/~lisa/bib/pub_subject/finance/pointeurs/… 일 수 있지만 여러 가지 접근 방식이 있습니다.
매트 크라우스

1
한 가지 더 분명히 : 모든 데이터를 사용하여 "생산"분류기를 훈련 할 때 언제 중지해야하는지 이해 하는가?
Anton
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.