교육 데이터를 늘리면 전체 시스템 정확도에 어떤 영향이 있습니까?


16

어떤 상황에서 훈련 데이터를 늘리면 전체 시스템이 향상 될 수 있는지 예를 들어 누군가를 요약 해 줄 수 있습니까? 더 많은 훈련 데이터를 추가하면 데이터가 과적 합 될 수 있고 테스트 데이터에 대한 정확도가 높지 않다는 것을 언제 감지 할 수 있습니까?

이것은 매우 구체적이지 않은 질문이지만 특정 상황에 대한 답변을 원한다면 그렇게하십시오.


기차 / 테스트로 50-50 분할이 75-25를 말하는 것보다 낫다는 것이 궁금합니까?
확률

답변:


22

대부분의 경우, 더 많은 데이터는 것이 더 좋습니다 . 과적 합은 본질적으로 실제 데이터가 아닌 훈련 데이터에서 발생하는 가짜 상관 관계를 학습하는 것입니다. 예를 들어, 내 동료 만 고려했다면 "명명 된 매트"와 "수염이 있음"을 연결하는 방법을 배울 수 있습니다. 100 % 유효합니다 ( , 짝수!). 그러나 일반적으로 사실이 아닙니다. 데이터 집합의 크기를 늘리면 (예 : 건물 또는 도시 전체) 이러한 의사 상관 관계가 줄어들고 학습자의 성과가 향상됩니다.=4

즉, 더 많은 데이터가 도움이되지 않고 심지어 상처를 입을 수있는 상황은 추가 교육 데이터에 노이즈가 있거나 예측하려는 내용과 일치하지 않는 경우입니다. 한 번은 다른 언어 모델 [*]을 음성 인식 식당 예약 시스템에 연결하는 실험을했습니다. 나는 훈련 데이터의 양과 관련성도 다양하게 변화시켰다. 극단적으로, 작고 신중하게 선별 된 사람들 예약 테이블을 가졌다. 다른 한편으로, 나는 더 정확한 언어 모델이지만, 응용 프로그램과 훨씬 더 나쁜 고전 문학의 거대한 컬렉션으로 추정되는 모델을 가지고있었습니다 . 놀랍게도, 작지만 관련성이 높은 모델은 관련성 이 높고 덜 중요한 모델보다 훨씬 뛰어 났습니다 .


훈련 세트의 크기가 모델 매개 변수의 수에 가까울 때 double-descent 라는 놀라운 상황이 발생합니다. 이 경우 훈련 세트의 크기가 증가하면 테스트 위험이 먼저 감소하고 훈련 데이터가 추가되면 일시적으로 증가 하며 훈련 세트가 계속 증가함에 따라 다시 감소하기 시작합니다. 이 현상은 신경 네트워크 문헌에서 25 년 동안보고되었지만 (Opper, 1995 참조), 현대 네트워크에서도 발생합니다 ( Advani and Saxe, 2017 ). 흥미롭게도, 이것은 SGD에 적합하지만 선형 회귀에서도 발생합니다 ( Nakkiran, 2019). 이 현상은 아직 완전히 이해되지 않았고 이론적으로 관심이 많습니다. 더 많은 데이터를 수집하지 않는 이유로 사용하지 않을 것입니다 (n == p이면 훈련 세트 크기를 피하고 성능이 예기치 않게 나빠질 수는 있지만) ).


[*] 언어 모델은 같이 주어진 단어 시퀀스를 볼 확률입니다. 입니다. 중간 정도의 음성 / 문자 인식기를 구축하는 데 중요합니다.(='빨리', +1='갈색', +2='여우')



12

한 가지 참고 사항 : 더 많은 데이터 (열이나 기능이 아닌 행이나 예제)를 추가하면 과잉 적합 가능성 이 증가하지 않고 감소 합니다.

두 단락 요약은 다음과 같습니다.

  • 더 많은 예제를 추가하면 다양성이 추가됩니다. 더 많은 예제를 학습함으로써 모델이 더 일반화되므로 일반화 오류가 줄어 듭니다.
  • 더 많은 입력 피처 또는 열 (고정 된 수의 예제에)을 추가하면 더 많은 피처가 관련이 없거나 중복 될 수 있고 해당 예에 맞도록 모델을 복잡하게 만들 가능성이 높기 때문에 과적 합이 증가 할 수 있습니다.

모델의 품질을 비교하기위한 몇 가지 간단한 기준이 있습니다. 예를 들어 AIC 또는 BIC를 살펴보십시오 .

둘 다 더 많은 데이터를 추가하면 항상 모델이 향상되고 최적의 범위를 넘어서 매개 변수 복잡성이 추가되면 모델 품질이 저하된다는 것을 보여줍니다.


1

훈련 데이터를 늘리면 항상 정보가 추가되므로 적합도가 향상됩니다. 적합에 사용 된 훈련 데이터에 대해서만 분류기의 성능을 평가하면 문제가 발생합니다. 이로 인해 낙관적으로 편향된 평가가 이루어지며 대신 일대일 교차 검증 또는 부트 스트랩이 대신 사용됩니다.


1

이상적으로, 더 많은 훈련 예제를 얻은 후에는 테스트 오류가 줄어 듭니다 (모델의 편차가 감소하여 과적 합이 적습니다). 그러나 이론적으로 더 많은 데이터가 항상 높은 바이어스 모델 이후 더 정확한 모델을 의미하는 것은 아닙니다 더 많은 훈련 사례의 이점을 얻지 못할 것입니다 .

여기를 참조하십시오 : 에서 기계 학습, 더 나은 무엇입니까 : 더 많은 데이터 또는 더 나은 알고리즘

고 분산 – 훈련 세트를 잘 나타내는 모델이지만 시끄 럽거나 대표성이없는 훈련 데이터에 과적 합할 위험이 있습니다.

높은 편향 – 과도하게 적합하지는 않지만 훈련 데이터에 적합하지 않아 중요한 규칙을 포착하지 못하는 더 간단한 모델입니다.


-1

스펙트럼 분석은 샘플의 다양성을 분석하는 데 도움이되며 사실 "실제 샘플"이 추가되지 않은 경우 잘못된 정보가 모델링에서 학습됩니다 (일반적으로 오버 피팅이라고 함). 일반적으로 샘플 별 제공 정보가 적은 경우 유용한 정보를 테스트에 사용할 수 있도록보다 실제적인 샘플을 제공하는 것이 좋습니다. 행운을 빕니다!


3
이 답변을 이해하기는 어렵습니다. 다른 언어로 기계 번역 된 것일까 요? 공유하고 싶은 아이디어를 전달할 수 있도록 검토하고 편집 할 수있는 방법이 있습니까?
whuber

나는 당신의 응답을 이해하지 못합니다.
user162580

3
언어 문제가있는 것 같습니다. 게시 한 단어가 영어로 이해되지 않습니다. 이해가되도록 변경할 수 있습니까?
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.