교차 유효성 검사가 유효성 검사 세트를 대신 할 수 있습니까?


27

텍스트 분류에는 약 800 샘플로 훈련 세트와 약 150 샘플로 시험 세트가 있습니다. 테스트 세트는 사용 된 적이 없으며 끝날 때까지 사용 대기 중입니다.

분류기 및 기능을 조정하고 조정하는 동안 10 배 교차 검증과 함께 800 샘플 교육 세트를 사용하고 있습니다. 이것은 별도의 유효성 검사 세트가 없지만 각각 10 배가 부족하면 유효성 검사 세트가 자동으로 선택됨을 의미합니다.

모든 것에 만족하고 평가의 마지막 단계에 들어가기를 원하면 800 개의 샘플에 대해 분류기를 훈련시킬 것입니다. 그리고 150 개의 샘플 테스트 세트에서 테스트하십시오.

텍스트 분류에서 이러한 교차 유효성 검사 사용법을 이해하고 있습니까? 이 연습이 유효합니까?

교차 검증에 대한 또 다른 질문은 다음과 같습니다.

10 배 대신에 성능에 대한 일반적인 지표로 하나를 남겨 두려고했습니다. F1 / 정밀도 / 리콜에 관한 정보를 얻을 수 없기 때문에, 1 회 휴가의 정확도와 10 배의 메트릭스 사이의 관계가 무엇인지 궁금합니다.

모든 통찰력은 높이 평가 될 것입니다.


편집하다:

이것은 교차 검증에 대한 아주 좋은 소개입니다. 또한 다른 연구 논문을 참조하십시오.


3
10 회 교차 검증은 오차를 줄이면서 편향되는 경향이있는 반면, 일대일 추정기는 편향되지 않습니다. 그러나 편견은 높은 분산의 가격으로옵니다.
blubb

@Simon, 문제의 복잡성에 달려 있다고 생각합니다. 그렇지 않습니까?
Biostat

@blubb : 특정 상황에서 LOO는 큰 비관적 편견을 가질 수 있습니다. LOO의 분산과 10 배 CV의 단일 실행은 일반적으로 매우 유사합니다. 여기서 낙관적 편향 (너무 낮은 오류 추정치)은 리샘플링을 선택하는 것이 아니라 교차 검증이 데이터 기반 최적화에 이미 사용되었다는 사실에서 비롯됩니다. 그 후, 다른 독립적 인 검증이 필요합니다. 그것은 낙관적 인 편견없이 교차 검증의 "외부"루프 일 수도 있습니다
cbeleites는 Monica를 지원합니다 :

답변:


15

교차 검증 작업 방법을 올바르게 설명했습니다. 실제로 교차 검증은 모델을 최적화하는 데 사용되지만 "실제"검증은 수행되지 않기 때문에 결국 합리적인 검증 세트를 갖는 것이 '행운'입니다.

@Simon Stelling이 그의 의견에서 말한 것처럼 교차 검증은 추정 오차를 낮추게 될 것입니다 (데이터를 지속적으로 재사용하기 때문에 의미가 있습니다). 그러나 다행스럽게도 모든 모델에 해당하므로 재앙을 피할 수 있습니다 (예 : 오차는 단지 줄어 듭니다) 교차 검증 된 기준에서 가장 잘 수행되는 모델을 선택하면 일반적으로 "실제"에 가장 적합합니다.

특히 parsimoneous 모델을 찾는 경우 더 낮은 오차를 약간 수정하는 데 사용되는 방법은 교차 검증 된 오류가 (교차 검증 된) 최적에서 하나의 SD 내에있는 가장 작은 모델 / 간단한 방법을 선택하는 것입니다. 교차 검증 자체는 휴리스틱이므로주의해서 사용해야합니다 (옵션 인 경우 튜닝 매개 변수에 대해 오류를 표시하십시오 : 허용 가능한 결과가 있는지 여부를 알 수 있습니다).

오류의 하향 편향이 주어지면 교차 유효성 검사에서 나온 오류를 언급하지 않고 교차 유효성 검사에서 오류 또는 기타 성능 측정을 게시 하지 않는 것이 중요합니다 (진실이 있지만 : 성능 측정은 원본 데이터 집합의 성능을 확인하여 얻은 것이므로 교차 검증을 언급하면 ​​실제로 더 많은 가치를 얻을 수 있습니다 . 유효성 검사 세트가 있으므로 문제가되지 않습니다.

마지막 경고 : 모델 피팅으로 인해 일부 경쟁 업체가 발생하는 경우 나중에 유효성 검사 세트에서 성능을 살펴 보는 것이 좋지만 최종 모델 선택을 기반으로 하지 마십시오 . 양심이지만 검증 세트를보기 전에 "최종"모델을 선택해야합니다.

두 번째 질문 : Simon은 자신의 의견에 필요한 모든 답변을 주었지만 그림을 완성하기를 원한다고 생각합니다. 종종 바이어스 편차 트레이드 오프가 발생합니다. 평균적으로 정확한 결과 (편견 없음)에 도달 할 경우, 가격은 일반적으로 각 개별 계산에서 각 계산과 상당히 거리가 멀다는 것입니다 (높은 분산). 예전에는 편견이 nec plus ultra였으며, 요즘에는 때때로 (작은) 편견을 받아 들였습니다 (따라서 계산의 평균이 올바른 결과를 초래할 것이라는 것을 모릅니다) 분산이 낮아집니다. 경험에 따르면 10 배 교차 검증으로 잔액이 허용되는 것으로 나타났습니다. 편견은 모델 최적화에만 문제가됩니다. 유효성 검사 세트에서 이후에 (편견없이) 기준을 추정 할 수 있기 때문입니다. 따라서 교차 유효성 검사를 사용하지 않는 이유는 거의 없습니다.


"하지만 유효성 검사 세트를보기 전에"최종 "모델을 선택해야합니다." 좋은.
Mooncrater
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.