가중치보다 적은 훈련 샘플로 (이론적으로) 신경망을 훈련시킬 수 있습니까?


12

우선, 신경망을 훈련시키는 데 필요한 샘플 크기는 일반적으로 없습니다. 그것은 작업의 복잡성, 데이터의 노이즈 등과 같은 너무 많은 요소에 달려 있습니다. 훈련 샘플이 많을수록 네트워크가 더 좋습니다.

그러나 궁금한 점이있다 : 만약 내가 "단순"하다고 생각한다면 이론적으로 가중치보다 적은 훈련 샘플로 신경망을 훈련시키는 것이 가능한가? 아무도 이것이 잘 된 예를 알고 있습니까? 아니면이 네트워크가 거의 제대로 작동하지 않습니까?

예를 들어 다항식 회귀를 고려하면 4 개의 데이터 포인트에만 4 차 다항식 (즉 5 개의 자유 매개 변수 사용)을 맞출 수 없습니다. 내 가중치의 수를 자유 매개 변수의 수로 고려하면 신경망에 대해 비슷한 규칙이 있습니까?


예 : 가중치가 무작위로 초기화되는 경우 이론적으로 제로 훈련 샘플이 없어도 완벽하게 훈련 된 신경망을 얻을 수 있습니다. (이것이 실제로 당신이 요구하는 것이 아님을 알기 때문에 답이 아닌 의견으로 게시하십시오.)
Darren Cook

답변:


17

사람들은 항상 대규모 네트워크로 그렇게합니다. 예를 들어 유명한 AlexNet 네트워크에는 약 6 천만 개의 매개 변수가 있고 원래 훈련 된 ImageNet ILSVRC에는 120 만 개의 이미지 만 있습니다.

5 개의 매개 변수 다항식을 4 개의 데이터 점에 맞추지 않는 이유는 항상 데이터 점에 정확하게 맞는 함수를 찾을 수 있지만 다른 곳에서는 무의미한 것을 수행하기 때문입니다. 음, 같은 한 최근 주목 AlexNet 및 이와 유사한 네트워크는 있습니다 임의의 임의 레이블 ImageNet에 적용 맞게 단순히 훈련 포인트에 비해 너무 많은 매개 변수가 아마도 때문에, 그들 모두를 기억. 그러나 확률 적 그래디언트 디센트 최적화 프로세스와 결합 된 네트워크의 우선 순위에 대한 사실은 실제로 이러한 모델은 실제 레이블을 제공 할 때 여전히 새로운 데이터 포인트로 일반화 할 수 있음을 의미합니다. 우리는 여전히 왜 그런 일이 일어나는지 이해하지 못합니다.


2
+1. 다항식 회귀 분석과 비교하기 위해 표본의 차원이 높다고 생각합니다. ImageNet의 평균 이미지 해상도는 약 469x387 픽셀입니다. 256x256으로 자르면 120 만 개의 65k 입력 매개 변수가 있으며 각 샘플 내에서 높은 상관 관계가 있으므로 신경망 (특히 회선 NN)에 더 많은 정보를 제공합니다. 다항 회귀 분석의 경우보다.
jjmontes

3
@jjmontes 사실이지만, 주된 수수께끼는 이러한 네트워크가 암기하고 일반화 할 수 있다는 것입니다. 즉, 임의의 레이블로 학습 데이터를 산산조각 내면서도 일반화 할 수 있습니다. 이것은 전통적인 ML 방법에서 볼 수있는 것이 아닙니다.
Amelio Vazquez-Reina

6

미결정 시스템은 데이터 이외의 다른 제약 조건을 부과하지 않는 경우에만 미결정입니다. 예를 고수하면서 4 데그 다항식을 4 데이터 포인트에 맞추면 데이터에 의해 제한되지 않는 1 자유도를 가지게되므로 계수 공간에서 동일하게 좋은 솔루션을 얻을 수 있습니다. 그러나 다양한 정규화 기술을 사용하여 문제를 다루기 쉽게 만들 수 있습니다. 예를 들어, 계수의 L2- 노름 (즉, 제곱합)에 페널티를 부과하면 항상 가장 높은 적합도를 가진 고유 한 솔루션이 있습니다.

정규화 기술은 신경망에도 존재하므로 질문에 대한 짧은 대답은 '예, 가능합니다'입니다. 특히 주목할만한 것은 "dropout"이라는 기술입니다. 가중치를 업데이트 할 때마다 네트워크에서 노드의 특정 하위 집합을 임의로 '삭제'합니다. 즉, 학습 알고리즘의 특정 반복에 대해 이러한 노드가 존재하지 않는 것으로 가정합니다. 드롭 아웃없이 네트는 올바르게 작동하는 모든 노드에 의존하는 입력의 매우 복잡한 표현을 배울 수 있습니다. 이러한 표현은 일반적인 패턴을 찾는 것이 아니라 훈련 데이터를 '암기'할 가능성이 높습니다. 드롭 아웃은 네트워크가 훈련 데이터에 맞추기 위해 한 번에 모든 노드를 사용할 수 없도록합니다. 일부 노드가 없어도 데이터를 잘 표현할 수 있어야합니다.

또한 드롭 아웃을 사용할 때 훈련 중 특정 지점에서의 자유도는 실제로 훈련 샘플보다 많은 가중치를 배우더라도 실제로 훈련 샘플 수보다 작을 수 있습니다.


2
: 이것은 어쩌면 깊은 그물에 명시 적으로 정규화 재생 해당 역할 과장 이 논문 내 대답 쇼에서 언급이 드롭 아웃과 네트워크를 암기 할 수있는 금액 만 작은 효과를 가진 정규화의 다른 형태. 그러나 당신의 기본 이야기는 옳을 지 모르지만 주요 규칙은 SGD의 암시적인 것입니다. 이것은 여전히 ​​다소 어둡습니다.
Dougal
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.