답변:
대부분의 경우, 더 많은 데이터는 것이 더 좋습니다 . 과적 합은 본질적으로 실제 데이터가 아닌 훈련 데이터에서 발생하는 가짜 상관 관계를 학습하는 것입니다. 예를 들어, 내 동료 만 고려했다면 "명명 된 매트"와 "수염이 있음"을 연결하는 방법을 배울 수 있습니다. 100 % 유효합니다 ( , 짝수!). 그러나 일반적으로 사실이 아닙니다. 데이터 집합의 크기를 늘리면 (예 : 건물 또는 도시 전체) 이러한 의사 상관 관계가 줄어들고 학습자의 성과가 향상됩니다.
즉, 더 많은 데이터가 도움이되지 않고 심지어 상처를 입을 수있는 상황은 추가 교육 데이터에 노이즈가 있거나 예측하려는 내용과 일치하지 않는 경우입니다. 한 번은 다른 언어 모델 [*]을 음성 인식 식당 예약 시스템에 연결하는 실험을했습니다. 나는 훈련 데이터의 양과 관련성도 다양하게 변화시켰다. 극단적으로, 작고 신중하게 선별 된 사람들 예약 테이블을 가졌다. 다른 한편으로, 나는 더 정확한 언어 모델이지만, 응용 프로그램과 훨씬 더 나쁜 고전 문학의 거대한 컬렉션으로 추정되는 모델을 가지고있었습니다 . 놀랍게도, 작지만 관련성이 높은 모델은 관련성 이 높고 덜 중요한 모델보다 훨씬 뛰어 났습니다 .
한 가지 참고 사항 : 더 많은 데이터 (열이나 기능이 아닌 행이나 예제)를 추가하면 과잉 적합 가능성 이 증가하지 않고 감소 합니다.
두 단락 요약은 다음과 같습니다.
모델의 품질을 비교하기위한 몇 가지 간단한 기준이 있습니다. 예를 들어 AIC 또는 BIC를 살펴보십시오 .
둘 다 더 많은 데이터를 추가하면 항상 모델이 향상되고 최적의 범위를 넘어서 매개 변수 복잡성이 추가되면 모델 품질이 저하된다는 것을 보여줍니다.
훈련 데이터를 늘리면 항상 정보가 추가되므로 적합도가 향상됩니다. 적합에 사용 된 훈련 데이터에 대해서만 분류기의 성능을 평가하면 문제가 발생합니다. 이로 인해 낙관적으로 편향된 평가가 이루어지며 대신 일대일 교차 검증 또는 부트 스트랩이 대신 사용됩니다.
이상적으로, 더 많은 훈련 예제를 얻은 후에는 테스트 오류가 줄어 듭니다 (모델의 편차가 감소하여 과적 합이 적습니다). 그러나 이론적으로 더 많은 데이터가 항상 높은 바이어스 모델 이후 더 정확한 모델을 의미하는 것은 아닙니다 더 많은 훈련 사례의 이점을 얻지 못할 것입니다 .
여기를 참조하십시오 : 에서 기계 학습, 더 나은 무엇입니까 : 더 많은 데이터 또는 더 나은 알고리즘
고 분산 – 훈련 세트를 잘 나타내는 모델이지만 시끄 럽거나 대표성이없는 훈련 데이터에 과적 합할 위험이 있습니다.
높은 편향 – 과도하게 적합하지는 않지만 훈련 데이터에 적합하지 않아 중요한 규칙을 포착하지 못하는 더 간단한 모델입니다.
스펙트럼 분석은 샘플의 다양성을 분석하는 데 도움이되며 사실 "실제 샘플"이 추가되지 않은 경우 잘못된 정보가 모델링에서 학습됩니다 (일반적으로 오버 피팅이라고 함). 일반적으로 샘플 별 제공 정보가 적은 경우 유용한 정보를 테스트에 사용할 수 있도록보다 실제적인 샘플을 제공하는 것이 좋습니다. 행운을 빕니다!