기본 기계 학습에서는 다음과 같은 "엄지 손가락 규칙"을 배웁니다.
a) 데이터의 크기는 가설 세트의 VC 차원 크기의 10 배 이상이어야합니다.
b) N 개의 연결을 갖는 신경망은 약 N의 VC 치수를 갖는다.
따라서 딥 러닝 신경망이 수백만 단위라고 말하면 이것이 수십억 개의 데이터 포인트를 가져야한다는 의미입니까? 이것에 대해 좀 밝힐 수 있습니까?
심층 신경망에는 귀하가 언급 한대로 수백만 개의 장치가 없습니다. 그러나 수백만 개의 연결이 있습니다. 나는 당신의 두 번째 경험 법칙이 주로 정규화 된 특성 (예 : 드롭 아웃이있는 CNN)으로 인해 이러한 네트워크에 적용되지 않는다고 가정합니다.
—
pir
핵심은 VC 바운드가 무한하지 않다는 것입니다. 그것이 유한하다면, PAC 이론은 우리에게 학습이 가능하다고 말합니다. 데이터의 양이 또 다른 질문입니다.
—
Vladislavs Dovgalecs