검증 세트에서 테스트하는 대신 연구원이 10 배 교차 검증을 사용하는 이유는 무엇입니까?


23

정서 분류 및 관련 주제에 대한 많은 연구 논문을 읽었습니다.

대부분은 10 배 교차 검증을 사용하여 분류기를 훈련시키고 테스트합니다. 즉, 별도의 테스트 / 검증이 수행되지 않습니다. 왜 그런가요?

이 방법의 장점, 단점은 무엇입니까? 특히 연구를하는 사람들에게는 어떤가요?


3
별도의 테스트를 수행하지 않았습니까?
Douglas Zare 2012

답변:


17

CV가 중첩 된 경우 문제가되지 않습니다. 즉, 모든 최적화, 기능 선택 및 모델 선택 (CV 사용 여부에 관계없이)이 하나의 큰 CV로 래핑됩니다.

추가 유효성 검사 세트와 비교하면 어떻습니까? 유효성 검사 세트는 일반적으로 전체 데이터에서 임의로 선택되는 부분이지만 CV의 한 번의 반복과 동일합니다. 이를 위해, 실제로 (행운 적으로) 운 좋게 / 불운하게 선택되거나 체리 피킹 유효성 검사 세트에 의해 쉽게 바이어스 될 수 있기 때문에 실제로는 더 나쁜 방법입니다.

이에 대한 유일한 예외는 객체 순서가 중요한 시계열 및 기타 데이터입니다. 그러나 그들은 어느 쪽이든 특별한 치료가 필요합니다.


16

주된 이유는 k- 폴드 교차 검증 추정기가 단일 홀드 아웃 세트 추정기보다 분산이 낮기 때문에 사용 가능한 데이터의 양이 제한되는 경우 매우 중요 할 수 있습니다. 단일 홀드 아웃 세트 (훈련에 데이터의 90 %가 사용되고 테스트에 10 %가 사용됨)가있는 경우 테스트 세트가 매우 작으므로 여러 데이터 샘플에 대한 성능 추정치에 많은 차이가 있습니다. 또는 훈련 및 테스트 세트를 형성하기 위해 데이터의 다른 파티션. k- 폴드 유효성 검사는 k 개의 서로 다른 파티션을 평균하여이 분산을 줄이므로 성능 추정치는 데이터의 파티셔닝에 덜 민감합니다. k- 겹 교차 검증을 반복하면 더 나아가서 교차 검증은 데이터의 서로 다른 파티션을 사용하여 k 개의 하위 세트를 형성하며,

그러나 모델 피팅 절차의 모든 단계 (모델 선택, 형상 선택 등)는 교차 검증 절차의 각 접힘에서 독립적으로 수행되어야합니다. 그렇지 않으면 결과 성능 추정값이 낙관적으로 바이어스됩니다.


9

[댓글에 비추어 편집]

CV 결과를 사용하여 여러 모델 중에서 선택하면 문제가 있다고 생각합니다.

CV를 사용하면 전체 데이터 세트를 사용하여 하나의 모델 / 방법을 학습 및 테스트 할 수있을뿐만 아니라 일반화 할 정도에 대한 합리적인 아이디어를 얻을 수 있습니다. 그러나 여러 모델을 비교하는 경우, 본능은 모델 비교에서 CV가 제공하는 추가 수준의 열차 테스트 격리를 사용하므로 최종 결과는 선택한 모델의 정확도를 합리적으로 추정 할 수 없습니다.

따라서 여러 모델을 만들고 CV를 기반으로 모델을 선택하면 찾은 것에 대해 지나치게 낙관적이라고 생각합니다. 우승자가 일반화하는 정도를 확인하려면 다른 검증 세트가 필요합니다.


고맙습니다. 맞습니다. 그러나 제 질문은 왜 reseach 논문에 최종 검증이 없는지에 대한 것이 었습니다. 적절한 이유가 있습니까? 데이터를 줄이려고하거나 CV가 제대로 작동하고 별도의 검증이 필요하지 않기 때문입니까?
user18075

5
와이

7
  • 내 경험상, 주된 이유는 일반적으로 샘플이 충분하지 않기 때문입니다.
    필자의 분야 (생체 / 의료 샘플 분류)에서 때때로 테스트 세트가 분리되어 유지되는 경우가 많지만 종종 몇 가지 사례 만 포함합니다. 이 경우 신뢰 구간은 일반적으로 사용하기에 너무 넓습니다.

  • 반복 / 반복 된 교차 검증 또는 아웃 오브 스트랩 (out-of-bootstrap) 검증의 또 다른 장점은 많은 "대리"모델을 빌드한다는 것입니다. 이들은 동일하다고 가정합니다. 그렇지 않으면 모드가 불안정합니다. 대리 모델 자체 또는 다른 대리 모델이 동일한 사례에 대해 수행 한 예측을 비교하여 실제로 (일부 훈련 사례 교환과 관련하여)이 불안정성을 측정 할 수 있습니다.

  • Esbensen & Geladi의이 백서 에서는 교차 검증의 몇 가지 제한 사항에 대해 설명합니다.
    대부분을 처리 할 수 ​​있지만 리샘플링 유효성 검사로 해결할 수없는 중요한 점은 드리프트인데, 이는 mbq의 요점과 관련이 있습니다.

    이에 대한 유일한 예외는 개체 순서가 중요한 시계열 및 기타 데이터입니다.

    드리프트는 예를 들어 계측기의 응답 / 진정 교정이 시간이 지남에 따라 느리게 변경됨을 의미합니다. 따라서 알려지지 않은 사례에 대한 일반화 오류는 알려지지 않은 미래 사례 와 동일하지 않을 수 있습니다 . 유효성 검사 중에 드리프트가 발견되면 "매일 / 매주 / ... 다시 교정 실행"과 같은 지침에 도달하지만 훈련 데이터보다 나중에 시스템 적으로 수집 한 테스트 세트가 필요합니다.
    실험이 적절하게 계획된 경우 획득 시간을 고려하여 "특별한"스플릿을 수행 할 수 있지만 일반적으로 드리프트 감지를 테스트하려는 시간만큼 걸리지 않습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.