나는 convoloutional 신경 네트워크에 대해 많은 것을 읽었으며 그들이 사라지는 기울기 문제를 어떻게 피하는지 궁금해하고있었습니다. 나는 딥 신념 네트워크가 단일 레벨 자동 인코더 또는 다른 사전 훈련 된 얕은 네트워크를 쌓아서이 문제를 피할 수 있다는 것을 알고 있지만 CNN에서 어떻게 피할 수 있는지 모르겠습니다.
Wikipedia 에 따르면 :
"위에서 언급 한"소멸 구배 문제 "에도 불구하고 GPU의 뛰어난 처리 능력으로 인해 많은 계층을 가진 딥 피드 포워드 신경망에서 일반 역 전파를 실현할 수 있습니다."
GPU 처리로이 문제가 해결되는 이유를 모르겠습니다.
GPU's are fast correlated with vanishing gradients
, 나는 다중 행렬 곱셈을 처리하기 위해 큰 메모리 대역폭을 가진 빠른 논리를 이해할 수 있습니다! 하지만 파생 상품과 어떤 관계가 있는지 설명해 주시겠습니까? 사라지는 그라데이션 문제는 체중 초기화와 함께 더 많은 일을 할 것 , 그것을하지 않습니다!