교육, 검증 및 테스트를 포함한 교차 검증. 왜 우리는 세 개의 부분 집합이 필요합니까?


28

교차 유효성 검사 프로세스에 대한 질문이 있습니다. 저는 Cursera에서 기계 학습 과정을 진행 중입니다. 주제 중 하나는 교차 검증에 관한 것입니다. 따라하기가 약간 어렵다는 것을 알았습니다. 미래의 (알 수없는) 데이터에서 모델이 잘 작동하고 CV가 과적 합을 방지하기 때문에 CV가 필요한 이유를 알고 있습니다. 그러나 프로세스 자체는 혼란 스럽습니다.

내가 이해 한 것은 데이터를 교육, 유효성 검사 및 테스트의 세 가지 하위 집합으로 나눕니다. 학습 및 검증은 모델의 최적의 복잡성을 찾는 것입니다. 내가 이해하지 못하는 것은 세 번째 하위 집합입니다. 모델에 대한 여러 가지 기능을 사용하여 학습하고 유효성 검사 하위 집합에서 모델을 검증하고 구조를 변경할 때 최소 비용 함수를 찾습니다. 찾았을 때 테스트 하위 세트에서 모델을 테스트합니다. 유효성 검사 하위 집합에서 이미 최소 비용 함수를 찾았다면 왜 테스트 하위 집합에서 다시 테스트해야합니까 ???

누군가 나를 위해 이것을 명확히 해 주시겠습니까?

고맙습니다


질문과 관련이없는 [1]의 논문과 토론을 찾을 수 있습니다. 메모리에서 세 가지 하위 집합을 언급합니다. 첫 번째는 모델을 공식화하고, 두 번째는 매개 변수를 추정하고, 세 번째는 예측을 통해 모델을 검증합니다. [1] Chatfield, C. 모델 불확실성, 데이터 마이닝 및 통계적 추론 (토론 포함) 왕립 통계 학회지. 시리즈 A (사회 통계), 1995, 158, 419-466
최대 절전 모드


건배! 이 링크 뒤에있는 실은 또한 이것을 이해하기위한 좋은 소스입니다 :)
Celdor

답변:


37
  • 훈련 세트는 주어진 모델에 대한 최적의 매개 변수를 선택하는 데 사용됩니다. 훈련 세트를 사용하여 특정 매개 변수 세트를 평가하면 비용 함수에 대한 편견없는 추정값이 제공 됩니다. 이는 제공 하는 추정값을 바이어스하는 훈련 세트를 기반으로 비용 함수의 추정값 을 최적화 하는 매개 변수를 선택 하는 작업입니다. . 훈련 세트에서 가장 잘 수행되는 파라미터가 선택되었다; 따라서 훈련 세트에서 평가 된 이러한 매개 변수의 명백한 성능은 지나치게 낙관적입니다.
  • 훈련 세트를 사용하여 훈련 한 후, 검증 세트는 최상의 모델을 선택하는 데 사용됩니다. 다시 한 번 유효성 검증 세트를 사용하여 주어진 모델을 평가하면 비용 함수의 대표적인 추정치가 제공됩니다. 이는 제공하는 추정치를 바이어스하는 유효성 검증 세트에서 가장 잘 수행되는 모델을 선택 하는 작업입니다 . 검증 세트에서 가장 잘 수행되는 모델이 선택되었습니다. 따라서 검증 세트에서 평가 된 해당 모델의 명백한 성능은 지나치게 낙관적입니다.
  • 훈련 사용하여 각 모델 트레이닝 세트를, 그리고 선택 은 Using 최고의 모델을 검증 세트를 테스트 세트는 모델의 최종 선택이 얼마나 잘 알려줍니다. 런타임에 실제로 얻을 수있는 실제 성능에 대한 편견없는 추정값을 제공하므로 여러 가지 이유로 알아야합니다. 매개 변수가 편향되어 있기 때문에이를 위해 훈련 세트를 사용할 수 없습니다. 그리고 모델 자체는 그에 대해 편향되어 있기 때문에이를 위해 유효성 검사 세트를 사용할 수 없습니다. 따라서 세 번째 세트가 필요합니다.

지금 이것을 볼 수 있습니다. 고맙습니다. 모델 구조 측면에서 편견없는 성능을 찾기 위해 하나 이상의 하위 집합이 필요하다는 사실에 대해서는 생각하지 않았습니다. 건배 :) 아주 좋은 설명입니다.
Celdor

그렇다면 최종 테스트 세트가 모델을 최적화하거나 최상의 모델을 선택하는 데 아무런 역할을하지 않습니까?
Anmol Singh Jaggi

1
실제로는 예상 성능을 추정하는 데만 사용해야합니다. 따라서 테스트 세트의 성능 결과가 마음에 들지 않으면 모델이 다시 한 번 바이어스되므로 테스트 결과를 최적화하기 위해 모델을 조정해야하는 충동을 피해야합니다.
Ytsen de Boer

12

유효성 검사 하위 집합에서 최소 비용 함수를 이미 찾았다면 테스트 하위 집합에서 다시 테스트해야하는 이유

임의 오류로 인해 : 일반적으로 유한 한 수의 사례 만 있습니다.

유효성 검사 (내부 테스트) 성능을 최적화하면 해당 내부 테스트 세트에 과도하게 적합 할 수 있습니다. 내부 테스트 세트는 최종 모델의 추정에 기여하므로 모델과 무관합니다.

즉, 일반화 특성을 추정하려면 전체 모델링 절차 (모든 최적화 및 데이터 중심 사전 처리 또는 모델 선택 프로세스 포함)와 독립적 인 다른 외부 테스트 세트가 필요합니다.

시뮬레이션을하고 세 가지 다른 오차 추정값을 비교하는 것이 좋습니다.

  • 재 치환 : 열차 세트의 예측은 적합도를
    측정 합니다.
  • 내부 테스트 (명칭 : 유효성 검사) 세트 : 옵티마이 저가 생각하는 품질
  • 외부 테스트 세트 : 모델 학습과 무관 한 일반화 오류.

시뮬레이션에서는 독립적으로 생성 된 적절한 대규모 테스트 세트와 쉽게 비교할 수 있습니다. 설정이 올바른 경우 외부 테스트는 편향되지 않아야합니다 (전체 데이터 세트에 구축 된 "최종"모델이 아닌 평가 된 대리 모델로 작성). 내부 테스트는 일반적으로 낙관적으로 편향되며 대체는 훨씬 낙관적으로 편향됩니다.

내 분야에서 내부 테스트는 일반화 오류를 2-5의 요소로 쉽게 과소 평가할 것입니다 (적극적인 최적화 계획의 경우 훨씬 더).


참고 : 세트의 명명법은 보편적이지 않습니다. 필자의 분야 (분석 화학)에서 유효성 검사는 일반적으로 최종 절차의 성능에 대한 증거를 의미하므로 "테스트"세트가 "유효성 검사"세트보다 더 많은 것을 수행합니다.

따라서 내부 및 외부 테스트 세트 또는 최적화 테스트 세트 (= 내부 테스트 세트)에 대해 말한 다음 유효성 검사 세트는 외부 테스트 세트를 의미합니다.


2

모델을 학습하는 동안 모델의 메타 매개 변수 (예 : 정규화 매개 변수)를 선택하거나 여러 모델 중에서 선택해야합니다. 이 경우 유효성 검사 하위 집합은 매개 변수 선택에 사용되지만 최종 예측 추정에는 테스트 하위 집합이 사용됩니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.