딥 러닝 NN과 현재 (2016)는 4 년 전에 공부 한 (NN)과 어떻게 다른가요?


13

Wikipediadeeplearning4j 에서 DLNN ( Deep-Learning NN)은 숨겨진 계층이 1보다 큰 NN이라고합니다.

이러한 종류의 NN은 대학에서 표준 이었지만 DLNN은 매우 과장된 것입니다. 거기에 있었습니까? 큰 문제는 무엇입니까?

또한 스택 NN이 딥 러닝으로 간주된다고 들었습니다. 딥 러닝은 실제로 어떻게 정의됩니까?

NN에 대한 나의 배경은 대부분 직업이 아닌 대학 출신입니다.

  • 산업에서 NN의 응용을 연구했습니다
  • artif에 약 5 개의 코스가있었습니다. 인텔. & 마하 배우다. -비록 NN에 2 개는 있지만
  • 이미지 인식에 관한 작고 간단한 프로젝트에 NN 사용-3 레이어 피드 포워드 NN 사용
  • 그들에 대한 실제 연구 (의사 논문에서와 같이)하지 않았다

@NeilSlater : 2012 년경 가장 강렬하게 연구했습니다.
Make42

답변:


23

심층 NN의 기본 개념은 2012 년 이후로 변하지 않았다는 점에 맞습니다. 그러나 심층 NN의 교육 방식이 질적으로 강력 해 지도록 다양한 개선이 이루어졌습니다. 오늘날에는 다양한 아키텍처가 제공됩니다. 교육 개선 및 아키텍처 개선으로 그룹화 한 2012 년 이후 몇 가지 개발을 나열했습니다.

심층 NN 교육 개선

  • 하드웨어 : 가장 명백한 변화는 무어의 법칙의 끝없는 진보입니다. 오늘날에는 더 많은 컴퓨팅 성능이 있습니다. 또한 클라우드 컴퓨팅을 통해 사람들은 거대한 장비를 구입할 필요없이 대규모 NN을 쉽게 교육 할 수 있습니다.

  • 소프트웨어 : 딥 러닝을위한 오픈 소스 소프트웨어는 2012 년부터 엄청나게 향상되었습니다. 2012 년에는 Theano, 아마도 Caffe도있었습니다. 나는 다른 사람들도 있다고 확신합니다. 그러나 오늘날에는 TensorFlow, Torch, Paddle 및 CNTK도 있으며이 두 가지 모두 대기업이 지원합니다. 이는 많은 플랫폼에서 GPU를 쉽게 학습 할 수있게하므로 하드웨어 시간과 밀접한 관련이 있으므로 교육 시간이 크게 단축됩니다.

  • 활성화 기능 : 요즘 ReLU 활성화 기능의 사용이 더 널리 퍼져있어 매우 딥 네트워크를 쉽게 훈련 할 수 있습니다. 연구 측면에서는 누출 ReLU , 파라 메트릭 ReLUmaxout 단위를 포함하여 더 광범위한 활성화 기능이 연구되고 있습니다.

  • 최적화 알고리즘 : 오늘날에는 더 많은 최적화 알고리즘이 있습니다. AdagradAdadelta 는 2011 년과 2012 년에 각각 소개되었습니다. 그러나 이제 우리는 Adam 옵티마이 저도 가지고 있으며 매우 인기있는 선택이되었습니다.

  • 중퇴 : 지난 몇 년 동안 중퇴 는 신경망을 훈련 할 때 정규화를위한 표준 도구가되었습니다. Dropout은 NN을위한 계산 비용이 저렴한 형식입니다. 일반적으로 데이터 집합의 임의 샘플에 대해 훈련 된 모델 집합은 전체 데이터 집합에 대해 훈련 된 단일 모델보다 성능이 우수합니다. 훈련하기에는 비용이 많이 들기 때문에 NN에 대해 명시 적으로하기가 어렵습니다. 그러나 각 단계에서 뉴런을 무작위로 "끄기"만해도 비슷한 효과를 얻을 수 있습니다. NN의 다른 하위 그래프는 다른 데이터 세트에 대해 훈련을 받아 다른 것을 배우게됩니다. 조립과 마찬가지로, 이것은 전체 NN을 오버 피팅에보다 견고하게 만드는 경향이 있습니다. 드롭 아웃은 거의 모든 경우에 성능을 향상시키는 간단한 기술이므로

  • 배치 정규화 : NN이 정규화 된 데이터에 대해 가장 잘 훈련하는 것으로 알려져 있습니다. 즉, 평균 및 단위 분산이 없습니다. 매우 깊은 네트워크에서 데이터가 각 계층을 통과함에 따라 입력이 변환되고 일반적으로이 정상화 속성이 부족한 분포로 이동합니다. 이는 입력에서 평균 및 단위 분산이 제로가 아니기 때문에 이러한 더 깊은 계층에서의 학습이 더 어려워집니다. 평균은 매우 클 수 있고 분산은 매우 작을 수 있습니다. 배치 정규화 는 입력을 레이어로 변환하여 평균 및 단위 분산이 0이되도록하여이 문제를 해결합니다. 이것은 매우 깊은 NN을 훈련시키는 데 엄청난 효과가있는 것으로 보입니다.

  • 이론 : 아주 최근까지, NN이 훈련하기 어려운 이유는 최적화 알고리즘이 로컬 최소값에 갇히고 글로벌 최소값을 찾는 데 어려움이 있기 때문입니다. 지난 4 년 동안이 직관이 잘못되었음을 나타내는 많은 연구가있었습니다 (예 : Goodfellow et al. 2014).). 깊은 NN의 매우 높은 차원의 파라미터 공간에서, 로컬 최소값은 글로벌 최소값보다 그리 나쁘지 않은 경향이 있습니다. 문제는 실제로 훈련 할 때 NN이 길고 넓은 고원에서 찾을 수 있다는 것입니다. 또한이 고원은 가파른 절벽에서 갑자기 끝날 수 있습니다. NN이 작은 단계를 밟으면 배우는 데 시간이 오래 걸립니다. 그러나 계단이 너무 크면 절벽으로 뛰어들 때 거대한 구배를 만나므로 모든 이전 작업이 취소됩니다. (이는 2012 년 이후의 또 다른 혁신 인 그라디언트 클리핑으로 피할 수 있습니다.)

새로운 아키텍처

  • 잔류 네트워크 : 연구원들은 잔류 네트워크를 사용하여 엄청나게 깊은 네트워크 (1000 개 이상의 레이어)를 교육 할 수있었습니다 . 여기서 아이디어는 각 레이어가 이전 레이어의 출력뿐만 아니라 원래 입력도 수신한다는 것입니다. 제대로 훈련되면 각 레이어가 이전 레이어와 다른 것을 배우도록하여 각 추가 레이어가 정보를 추가하도록합니다.

  • 넓고 깊은 네트워크 : 넓고 얕은 네트워크는 단순히 입력과 출력 사이의 매핑을 암기하는 경향이 있습니다. 딥 네트워크는 훨씬 더 일반화됩니다. 일반적으로 좋은 일반화를 원하지만 추천 시스템과 같은 일부 상황에서는 일반화없이 간단한 암기도 중요합니다. 이 경우 사용자가 일반 쿼리를 만들 때 실질적이고 실질적인 솔루션을 제공하려고하지만 사용자가 매우 구체적인 쿼리를 만들 때는 매우 정확한 솔루션을 제공해야합니다. 광역 및 딥 네트워크 는이 작업을 훌륭하게 수행 할 수 있습니다.

  • 신경 튜링 머신 : 기존의 재발 성 NN의 단점 (표준 RNN이든 LSTM과 같이 더 정교한 것이 든)은 메모리가 다소 "직관적"이라는 것입니다. 그들은 생성 한 숨겨진 레이어 활성화를 미래에 저장함으로써 과거 입력을 기억합니다. 그러나 때로는 일부 데이터를 명시 적으로 저장하는 것이 더 합리적입니다. (이것은 한 장의 종이에 전화 번호를 쓰는 것과 숫자가 약 7 자릿수 있고 거기에 3 ~ 2가 있었고 중간 어딘가에 대시가 있다는 것을 기억하는 것의 차이 일 수 있습니다.) 신경 튜링 기계이 문제를 해결하는 방법입니다. 아이디어는 네트워크가 메모리 팩에 특정 사실을 명시 적으로 커밋하는 방법을 배울 수 있다는 것입니다. 백프로 프 알고리즘에는 다른 기능이 필요하기 때문에 간단하지 않지만, 메모리 주소에 데이텀을 커밋하는 것은 본질적으로 별개의 작업입니다. 결과적으로 신경 튜링 머신은 약간의 데이터를 다른 메모리 주소의 분산에 커밋하여이 문제를 해결합니다. 이러한 아키텍처는 아직 제대로 작동하지 않지만 아이디어는 매우 중요합니다. 이들 중 일부 변형은 아마도 앞으로 널리 퍼질 것입니다.

  • 생성적인 적대적 네트워크 : GAN 은 이미 많은 실용화를보고있는 매우 흥미로운 아이디어입니다. 여기서의 아이디어는 두 개의 NN을 동시에 훈련시키는 것입니다. 하나는 기본 확률 분포에서 샘플을 생성하려고 시도하는 것 (생성기)과 하나는 생성기에서 생성 한 실제 데이터 포인트와 가짜 데이터 포인트를 구별하려고하는 것입니다 (구별 자). 예를 들어 데이터 집합이 침실 사진 모음 인 경우, 생성자는 침실의 자체 사진을 만들려고 시도하고, 차별자는 침실의 실제 사진이나 가짜 침실 사진을보고 있는지 알아 봅니다. 결국 두 가지 매우 유용한 NN이 있습니다. 하나는 이미지를 침실로 분류하거나 침실이 아닌 것으로 분류하는 데 정말 좋고 다른 하나는 침실의 사실적인 이미지를 생성하는데 정말 좋습니다.


좋은 지적! 드롭 아웃이 최근에 개발 된 것임을 알지 못했습니다! 지금 추가했습니다. 감사!
J. 오브라이언 안토니 니

0

딥 러닝 (특히 깊고 복잡한 신경망)은 최근 다양한 머신 비전 / 객체 감지 문제의 실질적인 개선으로 인해 매우 인기가 있습니다. 특히 깊은 수녀원은 ImageNet 분류 오류를 2010 년 28 %에서 2014 년 7 %로 줄이는 데 사용되었습니다. 딥 러닝은 과대 평가되어 있지만 머신 비전 분야에서 의미있는 개선이 있었다는 사실을 방해해서는 안됩니다.


DLNN은 꽤 오랫동안 사용되어 왔지만 최근에 잘 작동하도록 조정되었습니다. 그게 다야?
Make42

또한 정의는 무엇입니까?
Make42

예, 그들은 잠시 동안 주변에 있었지만 이제는 더 효과적으로 조정 되었기 때문에 인기를 얻었습니다. Neil Slater가 말했듯이 DL은 약간의 유행어이기 때문에 광범위하게 정의됩니다. 숨겨진 계층이 3 개 이상인 네트워크로 정의합니다. DL에는 또한 완전히 연결된 네트, 자동 인코더 및 복잡한 네트가 포함됩니다. 요청한 사람에 따라 되풀이되는 네트도 DL 범주에 속할 수 있습니다.
Ryan Zotti

0
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.