좋은 질문 : 딥 러닝 분야에서 통계 학습과 마찬가지로 항상 잘 자르고 명확하게 정의되지는 않습니다 (많은 과대 광고가 있기 때문에) 수학에서와 같이 엄격한 정의를 찾을 것으로 기대하지 마십시오. 어쨌든 다층 퍼셉트론은 특정 피드 포워드 신경망 아키텍처로, 완전히 연결된 여러 레이어를 쌓아서 (콘볼 루션 레이어가 전혀 없음) 숨겨진 유닛의 활성화 기능이 종종 시그 모이 드 또는 황갈색입니다. 출력 계층의 노드에는 일반적으로 softmax 활성화 기능 (분류) 또는 선형 활성화 기능 (회귀)이 있습니다. 일반적인 MLP 아키텍처는 "심층적"이 아니므로 숨겨진 레이어가 많지 않습니다. 일반적으로 1 ~ 5 개의 숨겨진 레이어가 있습니다. 이 신경망은 80 년대에 일반적이었습니다.
이제 Deep Neural Network를 사용하면 많은 계층 (19, 22, 152, ... 심지어 > 1200 )을 가진 네트워크를 의미합니다 . 참고
- 네트워크의 아키텍처를 지정하지 않았으므로 피드 포워드, 반복 등이 될 수 있습니다.
- 연결의 특성을 지정하지 않았으므로 레이어, 회선 레이어, 반복 등을 완전히 연결할 수 있습니다.
- "다수"레이어 는 분명한 정의 가 아닙니다 .
⇒ 32 × 32 + 32 × 10 = 1344⇒ 11584무게. 이것은 오늘날의 표준에 의한 NN입니다. 그러나 적당히 큰 데이터 세트에서 계속 학습하면 수렴 속도가 엄청나게 느려집니다. 이는 가중치 수가 많을뿐 아니라 소실 그라데이션 문제 로 인한 것입니다. 역전 파는 각 계층에 오류를 곱하여 손실 함수의 경사를 계산합니다.이 작은 숫자는 더 많은 계층을 추가할수록 기하 급수적으로 작아집니다. 따라서 오류가 네트워크에 전파되지 않거나 매우 느리게 전파되지 않으며 훈련 기간의 오류가 훈련 시대에 따라 감소하는 것처럼 보입니다.
그리고 이것은 작은 네트워크였습니다. AlexNet이라는 깊은 Convolutional Neural Networks에는 5 개의 레이어가 있지만 6 천만 개의 가중치가 있으며 오늘날의 표준에 의해 작은 것으로 간주됩니다! 가중치가 너무 많으면 모든 데이터 세트가 "소형"입니다. 분류에 사용되는 이미지의 데이터 세트 인 ImageNet도 "백만"이미지 만 있으므로 오버 피트 위험은 얕은 네트워크보다 훨씬 큽니다.
따라서 딥 러닝은 많은 수의 레이어와 가중치로 신경망을 훈련시키는 데 사용되는 툴 세트로 이해되어 일반화 오류가 낮습니다. 이 작업은 소규모 네트워크보다 더 많은 과제를 제기합니다. Deep Multilayer Perceptron을 빌드하고 훈련시킬 수는 있지만 (오늘 딥 러닝이 사용되는 많은 작업에 최적의 아키텍처가 아니라는 사실을 제외하고) 네트워크가 이전에 사용되었을 때와 다른 도구를 사용하게 될 것입니다 "얕은". 예를 들어, 소실 구배 문제를 완화하기 때문에 ReLU 활성화 장치를 시그 모이 드 또는 탄에 비해 선호 할 수 있습니다.