심층 컨볼 루션 신경망에서 사전 훈련?


답변:


39

이것이 이것이 귀하의 질문에 정확히 대답하는지 확실하지 않지만, 사람들이 사전 교육을받지 못하는 이유를 이해하는 이유 ( 이것은 감독되지 않은 사전 훈련 의미에서 ) 전환은 순전히 감독 훈련에 다양한 혁신이 있었기 때문입니다. 감독되지 않은 사전 교육을 불필요하게 만들었습니다.

주요 혁신 중 하나는 거의 평평한 곡률의 영역을 포화 / 거칠 수 있고 매우 작은 기울기가 뒤로 전파되는 시그 모이 드 (sigmoid, tanh) 활성화 장치에서 멀어지기 때문에 모든 실제 의도에 대해 완전히 중단되지 않으면 학습이 엄청나게 느려집니다. 그리고 목적. Glorot, Bordes 및 Bengio 기사 Deep Sparse Rectifier Neural Networks 는 전통적인 S 자형 단위 대신 정류 선형 단위 (ReLU)를 활성화 함수로 사용했습니다. ReLU는 입니다. 그것들은 제한이 없으며 양의 부분에는 일정한 기울기 1이 있습니다.에프(엑스)=최대(0,엑스)

Glorot, Bordes 및 Bengio 기사는 Conv Net이 아닌 다층 퍼셉트론에 ReLU를 사용했습니다. 이전 기사 Jarret과 Yann LeCun의 NYU 그룹의 다른 사람들이 객체 인식위한 최고의 다중 단계 아키텍처는 비선형 성을 수정했지만 S 자형 단위를 사용했기 때문에 에프(엑스)=|(엑스)|두 기사는 정류 비선형 성을 사용하는 것이 순수하게 감독 된 방법과 감독되지 않은 사전 훈련 된 방법 사이의 격차를 거의 없애는 것으로 나타났습니다.

또 다른 혁신은 우리가 딥 네트워크를위한 훨씬 더 나은 초기화를 알아 냈다는 것입니다. 네트워크의 계층 간 분산을 표준화한다는 아이디어를 사용하여 수년간 좋은 경험 법칙이 확립되었습니다. 가장 인기있는 것 중 하나는 Glorot과 Bengio에 의한 것이 었습니다. 심층 피드 포워드 네트워크 훈련의 어려움 이해 선형 활성화 가설 하에서 심층 네트워크를 초기화하는 방법을 제공하고 나중에 정류기 심층 분석에수정 된 비선형 성을 설명하기 위해 Glorot 및 Bengio 가중치 초기화를 수정하는 Microsoft Research 팀 구성원 그룹 가중치 초기화는 매우 깊은 그물에 큰 문제입니다. 30 레이어 전환의 경우 MSR 가중치 초기화는 Glorot 가중치 초기화보다 훨씬 우수합니다. Glorot 용지는 2010 년에, MSR 용지는 2015 년에 나왔습니다.

Alex Krizhevsky, Ilya Sutskever 및 Geoff Hinton의 심층 컨볼 루션 신경망 이 포함 된 ImageNet 분류 논문이 전환에 ReLU를 사용한 최초의 사례인지는 확실하지 않지만 가장 큰 영향을 미쳤습니다. 이 백서에서 CIFAR-10 그래프 중 하나에서 알 수 있듯이 ReLU 전환이 비 ReLU 전환보다 더 낮은 교육 오류율을 달성 할 수 있음을 보여주는 바와 같이, 전환에 대한 ReLU가 학습 속도를 높입니다. 이러한 ReLU는 사라지는 기울기 / 포화 S 자형 문제를 겪지 않으며 훨씬 더 깊은 그물을 훈련시키는 데 사용될 수 있습니다. 다른 큰 혁신 중 하나는 Dropout 교육, 확률 적 소음 주입 또는 모델 평균화 기술 (관점에 따라 다름)을 사용하여 과적 합하지 않고 더 깊고 더 큰 신경망을 더 오래 훈련 할 수 있다는 것입니다.

또한 ReLU (또는 Microsoft Research의 PReLU와 같은 일부 수정), Dropout 및 순수하게 감독 된 교육 (SGD + Momentum, RMSProp 또는 ADAGrad와 같은 적응 형 학습 속도 기술을 사용하는 거의 모든 방법)을 사용하여 혁신적인 혁신이 빠른 속도로 계속 진행되었습니다. ).

현재로서는 최고의 실적을 거둔 많은 전환이 순전히 감독되는 성격을 가진 것으로 보입니다. 즉, 감독되지 않은 사전 훈련 또는 감독되지 않은 기술을 사용하는 것이 미래에 중요하지 않을 수도 있습니다. 그러나 감독 훈련을 사용하여 매우 풍부한 데이터 집합에 대해 엄청나게 깊은 전환이 훈련, 인간 수준의 성과를 달성 또는 능가했습니다. 실제로 ImageNet 2015 콘테스트에 제출 한 최신 Microsoft Research에는 150 개의 레이어가 있다고 생각합니다. 오타가 아닙니다. 150.

전환에 대해 감독되지 않은 사전 교육을 사용하려면 전환에 대한 "표준"감독 교육이 제대로 수행되지 않고 감독되지 않은 사전 교육을 시도하는 것이 가장 좋습니다.

자연 언어 모델링과 달리 이미지 데이터와 관련하여 해당 감독 대상 작업을 도와주는 감독되지 않은 작업을 찾기가 어렵습니다. 그러나 인터넷을 충분히 둘러 보면 딥 러닝의 선구자 중 일부 (Yoshua Bengio, Yann LeCun)가 비지도 학습이 얼마나 중요하다고 생각하는지 이야기합니다.


1
ConvNet에 대한 Stanford의 자습서에서 컨볼 루션 신경망에 사전 훈련이 있음을 알았습니다. 여기 링크가 있습니다 : cs231n.github.io/transfer-learning 서로 다른가요? 그들이 실제로 똑같은 일을하고 있기 때문에?
Rika

2
답장 늦어서 죄송합니다. 편입 학습은 많이 이루어집니다. 지루한 교육 작업을 처음부터 피하고 ImageNet과 같은 대규모 데이터 세트에 대해 훈련 된 기능을 사용하는 데 사용되며, 대신 이러한 기능을 기반으로 분류자를 훈련시킵니다. 요즘에는 감독되지 않은 사전 훈련 이 많이 표시되지 않도록 이전 답변과 동일하지 않은 것으로 답변을 업데이트했습니다 . 의견 감사합니다.
인디 AI

+1. 아주 좋은 대답입니다. 내가 누락 된 것은 당신이 말하고있는 것 (즉, 사전 훈련 할 필요가 없다는 것)이 회선 신경 네트워크 (그렇다면 왜 그런가?) 또는 비 네트워크를 포함한 심층 네트워크에 특별히 적용되는지 여부에 대한 토론이나 의견이 있습니다. 컨볼 루션 것들.
amoeba는 Reinstate Monica가

14

위의 답변에서 알 수 있듯이 여러 가지 일이 발생하면 사전 훈련이 '유행되었습니다'. 그러나 나는 그것을 이해하고 싶어한다.

  1. 오래 전에 2010 년에 모두가 사전 훈련에 관심을 보였습니다. 내가 보지 못했던 주제에 관한 훌륭한 논문 이 있습니다.
  2. Alex Krizhevsky, Ilya Sutskever 및 Geoff Hinton이 이미지 넷 논문을 발표하기 약간 전에, 사람들은 여전히 ​​기능이 중요하다고 생각했지만, 주로 감독되지 않은 학습에 초점을 맞추고 심지어 자체 학습을 통해 학습했습니다.
  3. 그 이유를 알기가 어렵지 않습니다. 당시 신경망의 빌딩 블록이 강력하지 않고 유용한 기능에 매우 느리게 수렴되었습니다. 여러 번 그들은 심지어 장엄하게 실패했습니다. 사전 교육은 충분한 데이터가있을 때 유용했으며 SGD에 대한 초기화가 좋았습니다.
  4. relu가 시작되면 네트워크가 더 빨리 수렴되었습니다. 누출 된 relu와 최신 솔루션이 등장했을 때 신경망은 실행 가능한 결과로 수렴 될 때 더욱 강력한 기계가되었습니다. 이 재능있는 Google 직원이 작성한 훌륭한 신경망 데모를 사용하는 것이 좋습니다 . 내가 말하는 것을 볼 수 있습니다.
  5. 우리의 요점에 도달하는 것은 어떤 형태의 사전 훈련이 딥 러닝에서 중요하지 않다는 것은 아닙니다. 최신 결과를 얻으려면 데이터의 사전 처리 (예 : ZCA)를 수행하고 초기 가중치를 올바르게 선택해야합니다 . 이는 주제에 매우 적합한 용지입니다 .

따라서 사전 교육은 사전 처리 및 가중치 초기화 형식으로 변경되었지만 기능은 그대로 유지되어 더욱 우아해졌습니다.

마지막으로, 머신 러닝은 매우 유행합니다. 나는 Andrew Ng와 같이 개인적으로 내기하고 있으며 감독되지 않고 자율적으로 배우는 학습이 미래에 지배적이 될 것이기 때문에 이것을 종교로 만들지 마십시오. :)


13

자동 엔코더 나 RBM만큼 많은 논문이 있습니다. 그 이유는 NN의 타임 라인이라고 생각합니다. 스택 형 RBM 및 자동 인코더는 2006 년2007 년 에 각각 소개되었습니다 . 2009 년 ReLU를 고용 한 후 비지도 학습은 부분적으로 포기됩니다 (직접지도 학습에서 배울 수있는 데이터가 충분한 경우). Convolution net (또는 LeNet)이 1989 년에 발명되었지만 ReLU 를 통한 직접 감독 학습의 대중화 이후 인 2012 년 까지는 심층 구조로 훈련 할 수 없었 습니다. 그래서 연구자들은 대부분 직접지도 학습을 사용하여 훈련했습니다.


그래서 당신은 아직 깊은 컨볼 루션 신경망에 사전 훈련이 없다는 것에 동의합니까?
RockTheStar

4
@RockTheStar 아니요, 이전 두 개만큼 많지는 않습니다. research.microsoft.com/pubs/200804/CNN-Interspeech2013_pub.pdf 이 연구에서 사용되었습니다. 짧은 인용문은 다음과 같습니다. "우리는 프리 트레이닝이 도움이되지 않는 TIMIT의 CNN을 제외하고 프리 트레이닝이 DNN과 CNN 모두를 향상 시킨다는 것을 관찰합니다. 일반적으로 CNN에 프리 트레이닝을 사용하는 상대적인 개선은 DNN보다 상대적으로 적습니다."
yasin.yazici
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.