답변:
한마디로 : 모델을 검증함으로써. 유효성 검증의 주요 이유는 초과 적합이 발생하지 않고 일반화 된 모델 성능을 추정하기위한 것입니다.
먼저 과적 합이 실제로 무엇인지 살펴 보겠습니다. 모델은 일반적으로 훈련 세트에서 일부 손실 기능을 최소화하여 데이터 세트에 맞게 훈련됩니다. 그러나이 교육 오류를 최소화하면 더 이상 모델의 실제 성능에 도움이되지 않고 특정 데이터 세트의 오류 만 최소화 할 수있는 한계가 있습니다. 이는 본질적으로 모델이 학습 세트의 특정 데이터 포인트에 너무 단단히 고정되어 노이즈에서 시작된 데이터의 패턴을 모델링하려고 시도했음을 의미합니다. 이 개념을 초과 적합 이라고 합니다 . 과적 합의 예는 아래에 표시되며 훈련 세트는 검은 색으로, 실제 인구는 백그라운드에서 더 큰 세트입니다. 이 그림에서 파란색 모델이 훈련 세트에 너무 단단히 고정되어 기본 노이즈를 모델링 한 것을 볼 수 있습니다.
모델이 과적 합인지 여부를 판단하려면 모델이 향후 데이터에 미칠 일반화 된 오류 (또는 성능)를 추정하고이를 훈련 세트의 성능과 비교해야합니다. 이 오류를 추정하는 방법에는 여러 가지가 있습니다.
일반화 된 성능을 추정하는 가장 간단한 방법은 데이터 집합을 교육 집합, 유효성 검사 집합 및 테스트 집합의 세 부분으로 분할하는 것입니다. 훈련 세트는 데이터를 맞추기 위해 모델을 훈련시키는 데 사용되며, 검증 세트는 최상의 모델을 선택하기 위해 모델 간의 성능 차이를 측정하고 모델 선택 프로세스가 첫 번째에 과도하게 적합하지 않다고 테스트 세트하는 데 사용됩니다. 두 세트.
과적 합의 양을 추정하려면 테스트 세트의 관심 메트릭을 마지막 단계로 평가하고이를 트레이닝 세트의 성능과 비교하십시오. ROC를 언급했지만 내 의견으로는 모델 성능을 보장하기 위해 브리 어 점수 또는 보정 플롯과 같은 다른 메트릭도 살펴 봐야합니다. 이것은 물론 문제에 따라 다릅니다. 많은 측정 항목이 있지만 여기에는 문제가 없습니다.
이 방법은 매우 일반적이며 존중되지만 데이터 가용성에 대한 요구가 높습니다. 데이터 세트가 너무 작 으면 성능이 많이 저하 될 수 있으며 결과는 분할에 편향됩니다.
검증 및 테스트에 데이터의 많은 부분을 낭비하지 않는 한 가지 방법은 모델 검증에 사용 된 것과 동일한 데이터를 사용하여 일반화 된 성능을 추정하는 교차 검증 (CV)을 사용하는 것입니다. 교차 유효성 검사의 기본 개념은 데이터 집합을 특정 수의 하위 집합으로 분할 한 다음 나머지 데이터를 사용하여 모델을 학습하는 동안 테스트 집합으로 지정된 각 하위 집합을 차례로 사용하는 것입니다. 모든 접기에 대한 메트릭을 평균하면 모델 성능을 추정 할 수 있습니다. 최종 모델은 일반적으로 모든 데이터를 사용하여 학습됩니다.
그러나 CV 추정치는 편향되지 않습니다. 그러나 접는 횟수가 많을수록 바이어스가 더 작지만 대신 분산이 커집니다.
데이터 세트 분할에서와 같이 모델 성능을 추정하고 초과 적합성을 추정하기 위해 단순히 CV의 메트릭을 훈련 세트의 메트릭을 평가하여 얻은 메트릭과 비교하면됩니다.
부트 스트랩의 기본 개념은 CV와 유사하지만 데이터 세트를 부품으로 나누는 대신 전체 데이터 세트에서 트레이닝 세트를 반복적으로 교체하고 각 부트 스트랩 샘플에 대해 전체 트레이닝 단계를 수행하여 트레이닝에 임의성을 도입합니다.
가장 간단한 형태의 부트 스트랩 유효성 검사는 훈련 세트에없는 샘플 (즉, 누락 된 샘플)의 메트릭을 평가하고 모든 반복에 대한 평균을 계산합니다.
이 방법을 사용하면 대부분의 경우 CV보다 편향이 적은 모델 성능을 추정 할 수 있습니다. 다시 한 번 훈련 세트 성능과 비교하면 오 버핏을 얻을 수 있습니다.
부트 스트랩 유효성 검사를 향상시키는 방법이 있습니다. .632+ 방법은 과도 적합을 고려하여 일반화 된 모델 성능을보다 강력하고 정확하게 추정하는 것으로 알려져 있습니다. (관심있는 원본 기사는 다음과 같습니다 . 교차 검증 개선 사항 : 632+ 부트 스트랩 방법 )
이것이 귀하의 질문에 답변되기를 바랍니다. 모델 검증에 관심이 있으시면 온라인에서 무료로 제공되는 통계 학습의 요소 : 데이터 마이닝, 추론 및 예측 책에서 검증에 대한 부분을 읽는 것이 좋습니다 .
과적 합 정도를 추정하는 방법은 다음과 같습니다.
예를 들면 다음과 같습니다.
Trefferrate = 적중률 (정확하게 분류 된 %), Variablenzahl = 변수 수 (= 모델 복잡성)
기호 :. 재 치환, + 하이퍼 파라미터 옵티마이 저의 내부 휴가 1 회 평가, o 환자 수준과 독립적 인 외부 교차 검증
이것은 ROC 또는 Brier의 점수, 감도, 특이성 등과 같은 성능 측정과 함께 작동합니다 ...
* 나는 여기에 .632 또는 .632+ 부트 스트랩을 권장하지 않습니다 : 그들은 이미 대체 대체 오류가 혼합되어 있습니다 : 나중에 다시 대체 및 부트 아웃 추정에서 나중에 계산할 수 있습니다.
과적 합은 단순히 통계적 파라미터를 고려한 직접적인 결과이며, 결과는 임의의 방식으로 획득되지 않았 음을 확인하지 않고 유용한 정보로 얻을 수 있습니다. 따라서 과적 합의 존재를 추정하기 위해서는 실제와 동일하지만 무작위로 생성 된 값을 가진 데이터베이스에서 알고리즘을 사용해야합니다.이 작업을 여러 번 반복하면 임의의 방식으로 동등하거나 더 나은 결과를 얻을 확률을 추정 할 수 있습니다 . 이 확률이 높으면 과적 합 상황 일 가능성이 높습니다. 예를 들어, 4 차 다항식이 평면에서 임의의 점 5 개와 1의 상관 관계를 가질 확률은 100 %이므로이 상관 관계는 쓸모가 없으며 과적 합 상태에 있습니다.