Vapnik-Chervonenkis (VC) - 차원 신경망 수식 내지 에 와, 최악의 경우에, 엣지의 수이고 노드 수입니다. 일반화를 강력하게 보장하는 데 필요한 교육 샘플 수는 VC 치수와 선형입니다.
즉, 성공적인 딥 러닝 모델의 경우와 같이 수십억 개의 에지가있는 네트워크의 경우 훈련 데이터 세트에 가장 좋은 경우 수십억 개의 훈련 샘플이 필요하고 최악의 경우에는 수십억이 필요합니다. 가장 큰 훈련 세트는 현재 약 1,000 억 개의 샘플을 가지고 있습니다. 교육 데이터가 충분하지 않기 때문에 딥 러닝 모델이 일반화되지는 않습니다. 대신, 그들은 훈련 데이터를 과적 합하고 있습니다. 이는 머신 학습에 바람직하지 않은 특성 인 훈련 데이터와 다른 데이터에서 모델이 제대로 작동하지 않음을 의미합니다.
VC 차원 분석에 따르면 딥 러닝을 일반화 할 수 없다는 점을 감안할 때 딥 러닝 결과가 왜 그렇게 과장된 것일까 요? 일부 데이터 세트에서 정확도가 높다고해서 그 자체로는 큰 의미가 없습니다. VC 차원을 크게 줄이는 딥 러닝 아키텍처에 특별한 것이 있습니까?
VC 차원 분석이 적절하지 않다고 생각되면 딥 러닝이 일반화되고 과적 합하지 않다는 증거 / 설명을 제공하십시오. 즉, 리콜 및 정밀도가 좋습니까? 100 % 리콜은 100 % 정밀도와 마찬가지로 달성하기가 쉽지 않습니다. 둘 다 100 %에 가까워지는 것은 매우 어렵습니다.
반대로, 딥 러닝이 지나치게 적합 하다는 증거 가 있습니다. 과적 합 모델은 결정적 / 확률 적 노이즈를 통합했기 때문에 속이기 쉽습니다. 과적 합의 예는 다음 이미지를 참조하십시오.
또한 테스트 데이터의 정확도가 높음에도 불구하고 과적 합 모델의 문제를 이해하려면 이 질문 에 대한 순위가 낮은 답변을 참조하십시오 .
일부는 정규화 가 큰 VC 차원 의 문제 를 해결 한다고 응답했습니다 . 자세한 내용은 이 질문 을 참조하십시오 .