데이터 세트 크기에 따른 과적 합 / 비 적합


11

아래 그래프에서

  • x 축 => 데이터 세트 크기
  • y 축 => 교차 검증 점수

여기에 이미지 설명을 입력하십시오

  • 빨간 선 은 훈련 데이터입니다

  • 녹색 선 은 데이터 테스트 용입니다.

내가 말하는 겁니다하는 튜토리얼에서는, 저자는 그 점을 말한다 곳 레드 라인그린 라인 수단 중복,

더 많은 데이터를 수집해도 일반화 성능이 향상되지는 않으며 데이터가 적합하지 않은 지역에 있습니다. 따라서 더 많은 용량의 모델로 시험해 보는 것이 합리적입니다.

나는 대담한 문구의 의미 와 그것이 어떻게 발생하는지 이해할 수 없습니다 .

도움을 주셔서 감사합니다.


빨간색과 초록색 선은 무엇입니까?
Kasra Manshaei

1
@ KasraManshaei : 질문을 업데이트했습니다.
tharindu_DG

1
가능하면 튜토리얼 링크를 추가하십시오. 우리가 대답과 문맥을 이해하는 도움이 더 나은 :)
Dawny33

@ Dawny33 : 비디오 자습서이며 업로드하면 내가 생각하는 저작권 문제를 위반합니다. :)
tharindu_DG

답변:


6

따라서 언더 피팅이란 여전히 학습 능력을 향상시킬 수있는 반면, 오버 피팅은 학습에 필요한 것보다 많은 용량을 사용했음을 의미합니다.

녹색 영역은 테스트 오류가 증가하는 곳입니다. 즉, 더 나은 결과를 얻으려면 용량 (데이터 포인트 또는 모델 복잡성)을 계속 제공해야합니다. 녹색 선이 많을수록 더 평평 해집니다. 즉, 제공된 용량 (데이터)이 충분하고 모델 복잡성 인 다른 유형의 용량을 제공하기에 더 나은 지점에 도달하고 있습니다.

테스트 점수가 향상되지 않거나 심지어 줄어든 경우 데이터 복잡성의 조합이 최적의 상태였으며 교육을 중단 할 수 있습니다.


응답 해주셔서 감사합니다. 모호성이 거의 없습니다. -그래프 끝에서 녹색 선과 빨간색 선이 수렴되었습니다. 모델에 대한 데이터가 충분하다는 의미는 아닙니까? -훈련 세트보다 테스트 세트에서 더 나은 정확도를 얻을 수 있습니까? -우리가 더 나은 모델을 가지고 있다고 가정 해 봅시다. 그리고 그래프는 어떻게 생겼을까 요?
tharindu_DG

1
"모델에 대한 데이터가 충분하다는 의미가 아닙니까?" 바로 내가 쓴 것입니다. 예, 충분한 데이터가 있으므로 개선하려면 더 많은 복잡성을 시도해야합니다. 데이터가 충분하다. "훈련 세트보다 테스트 세트에서 더 나은 정확도를 얻을 수 있습니까?" 나는 그런 것을 본 적이 없다. 단일 실험에서 발생할 수 있지만 일반적으로 발생하지는 않습니다. 이 질문은 "내가 아는 것보다 더 많이 알 수 있습니까?"로 번역 될 수 있습니다. 답은 "물론 아니야!"
Kasra Manshaei

1
"우리가 더 나은 모델을 가지고 있다고 가정 해 보자. 그리고 그래프는 어떻게 생겼을까?" 나는 훈련과 테스트가 향상되거나 그렇지 않다고 가정합니다 (당신이 내가 옳은지 알려주십시오 :)). 훈련은 개선되고 테스트는 떨어질 수 있지만 그 반대는 아닙니다. 또한 잠시 동안 개선 된 다음 테스트는 오버 피팅이라고합니다. 테스트 라인이 떨어지기 시작하면 훈련을 중단해야합니다
Kasra Manshaei

5

Kasra Manshaei가 일반적인 대답 (+1)을 제공하지만 이해하기 쉬운 예를 드리고 싶습니다.

매우 간단한 문제를 생각해보십시오. 함수 맞추기 f:[0,1]R. 그렇게하려면 다항식 클래스에서 모형을 가져옵니다. 논증을 위해 0 도의 다항식을 취한다고 가정 해 봅시다.이 모형의 용량 은 상수에만 적합하기 때문에 매우 제한적입니다. 기본적으로 평균 값을 추측합니다 (물론 오류 기능에 따라 다르지만 단순하게 유지하십시오). 따라서 비교적 빠른 속도로 이러한 종류의 모델에 가장 적합한 매개 변수가 무엇인지 추정 할 수 있습니다. 몇 개의 예제를 추가하든 테스트 및 교육 오류는 거의 동일합니다. 문제는 데이터가 충분하지 않다는 것이 아니라 모델이 충분히 강력하지 않다는 것 입니다.

다른 방향으로가 봅시다 : 1000 개의 데이터 포인트가 있다고 가정 해 봅시다. 약간의 수학을 알고 있으면 999 도의 다항식을 선택할 수 있습니다. 이제 훈련 데이터를 완벽하게 맞출 수 있습니다. 그러나 데이터가 너무 완벽하게 맞을 수 있습니다. 예를 들어 ( 내 블로그에서 )를 참조하십시오.

여기에 이미지 설명을 입력하십시오

이 경우 데이터에 완벽하게 맞는 다른 모델이 있습니다. 분명히, 파란색 모델은 데이터 포인트간에 부자연 스럽습니다. 모델 자체는 분포의 종류를 잘 포착하지 못할 수 있으므로 모델을 더 간단한 것으로 제한하면 실제로 도움이 될 수 있습니다. 이것은 과적 합의 예일 수 있습니다 .


1
아주 좋은 @ 무스! 설명을 이해하기 위해 (+1)
Kasra Manshaei

0

귀하의 경우-모델이 높은 편향 / 부적합 솔루션임을 나타내는 기차와 테스트 곡선 사이의 간격이 매우 작거나 아예 없습니다. 더 복잡한 모델을 선택해야합니다. -완료를 위해, 기차와 테스트 곡선 사이의 간격이 매우 커서 편차 / 과적 합이 높음을 나타내는 반대의 경우를 추가해야합니다. b) 덜 복잡한 모델 선택, c) 정규화 수행


0

다음 중 일부 또는 전부를 수행 할 수 있습니다.

1) 모델에 공급하는 기능을 변경하십시오.

2) 사용할 다른 모델을 선택하십시오

3) 모델에 더 많은 데이터를로드합니다 (옵션은 제공되지 않지만 일반적으로 옵션 임)

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.