가장 중요한 것은 데이터의 양이 많더라도 더 많은 데이터가 항상 더 좋기 때문에 데이터의 샘플이 잘 분산되어 있다는 것입니다. 결국, 고양이와 개 그림을 구별하는 법을 배우려고하면 고양이 이미지 만 먹이면 모델이 잘 작동 할 것으로 기대할 수 없습니다.
Kevin L 의 답변 에서 제안했듯이 훈련 오류와 테스트 오류의 차이를 고려하는 것이 좋습니다. 테스트 데이터가 교육 데이터와 독립적 인 경우 모델이 사용할 수없는 데이터를 얼마나 일반화하는지 나타냅니다. 제가 추가하고 싶은 것은 훈련과 테스트 오류의 큰 차이는 모델이 잘 일반화되지 않았다는 것, 즉 훈련 데이터에 과적 합하고 있다는 사실 만 알려줍니다. 이제 네트워크가 추가 데이터 포인트를 모델링해야하므로 더 많은 데이터가 도움이 될 수 있습니다. 그러나 일반화되도록 모델을 변경하는 것이 더 가치가있을 수 있습니다. 이 책은 훌륭한 책에서 어떤 유형의 정규화가 존재하는지와 더 나은 일반화를 위해 네트워크에 적용 할 수있는 방법을 설명합니다.
좀 더 정량적 인 방법을 찾고 있다면 최근 에 quora에서이 질문을 발견 했습니다.. 그것은 자동 인코더에 관한 것이지만 귀하의 예제에도 적용되어야한다고 생각합니다. 이것이 올바른지 알 수 없지만 (예를 들어 알려주십시오) 예를 들어 MNIST의 경우 최대 28 * 28 * 8 * 10,000 = 62 720 000으로 이미지를 줄이려고한다고 주장 할 수 있습니다. 10 * 10 * 10,000 = 1000000 비트의 엔트로피를 갖는 원-핫 인코딩에서 10 개의 클래스로의 비트 엔트로피. 우리는 출력에서 1000000 비트의 엔트로피에만 관심이 있기 때문에, 000 000 개의 파라미터로 각 파라미터는 샘플 당 1e-4 비트 인 단일 비트를 나타냅니다. 이것은 더 많은 데이터가 필요하다는 것을 의미합니다. 또는 매개 변수가 너무 많습니다. 예를 들어 100 개의 매개 변수를 사용하는 경우 매개 변수 당 10,000 비트가 있으므로 샘플 당 1 비트가 있습니다. 하나,