심층 컨볼 루션 신경망에서 사전 훈련에 관한 문헌을 본 사람이 있습니까? 오토 인코더 또는 제한된 boltzman 기계에서 감독되지 않은 사전 훈련 만 보았습니다.
심층 컨볼 루션 신경망에서 사전 훈련에 관한 문헌을 본 사람이 있습니까? 오토 인코더 또는 제한된 boltzman 기계에서 감독되지 않은 사전 훈련 만 보았습니다.
답변:
이것이 이것이 귀하의 질문에 정확히 대답하는지 확실하지 않지만, 사람들이 사전 교육을받지 못하는 이유를 이해하는 이유 ( 이것은 감독되지 않은 사전 훈련 의미에서 ) 전환은 순전히 감독 훈련에 다양한 혁신이 있었기 때문입니다. 감독되지 않은 사전 교육을 불필요하게 만들었습니다.
주요 혁신 중 하나는 거의 평평한 곡률의 영역을 포화 / 거칠 수 있고 매우 작은 기울기가 뒤로 전파되는 시그 모이 드 (sigmoid, tanh) 활성화 장치에서 멀어지기 때문에 모든 실제 의도에 대해 완전히 중단되지 않으면 학습이 엄청나게 느려집니다. 그리고 목적. Glorot, Bordes 및 Bengio 기사 Deep Sparse Rectifier Neural Networks 는 전통적인 S 자형 단위 대신 정류 선형 단위 (ReLU)를 활성화 함수로 사용했습니다. ReLU는 입니다. 그것들은 제한이 없으며 양의 부분에는 일정한 기울기 1이 있습니다.
Glorot, Bordes 및 Bengio 기사는 Conv Net이 아닌 다층 퍼셉트론에 ReLU를 사용했습니다. 이전 기사 Jarret과 Yann LeCun의 NYU 그룹의 다른 사람들이 객체 인식 을 위한 최고의 다중 단계 아키텍처는 비선형 성을 수정했지만 S 자형 단위를 사용했기 때문에 두 기사는 정류 비선형 성을 사용하는 것이 순수하게 감독 된 방법과 감독되지 않은 사전 훈련 된 방법 사이의 격차를 거의 없애는 것으로 나타났습니다.
또 다른 혁신은 우리가 딥 네트워크를위한 훨씬 더 나은 초기화를 알아 냈다는 것입니다. 네트워크의 계층 간 분산을 표준화한다는 아이디어를 사용하여 수년간 좋은 경험 법칙이 확립되었습니다. 가장 인기있는 것 중 하나는 Glorot과 Bengio에 의한 것이 었습니다. 심층 피드 포워드 네트워크 훈련의 어려움 이해 선형 활성화 가설 하에서 심층 네트워크를 초기화하는 방법을 제공하고 나중에 정류기 심층 분석에수정 된 비선형 성을 설명하기 위해 Glorot 및 Bengio 가중치 초기화를 수정하는 Microsoft Research 팀 구성원 그룹 가중치 초기화는 매우 깊은 그물에 큰 문제입니다. 30 레이어 전환의 경우 MSR 가중치 초기화는 Glorot 가중치 초기화보다 훨씬 우수합니다. Glorot 용지는 2010 년에, MSR 용지는 2015 년에 나왔습니다.
Alex Krizhevsky, Ilya Sutskever 및 Geoff Hinton의 심층 컨볼 루션 신경망 이 포함 된 ImageNet 분류 논문이 전환에 ReLU를 사용한 최초의 사례인지는 확실하지 않지만 가장 큰 영향을 미쳤습니다. 이 백서에서 CIFAR-10 그래프 중 하나에서 알 수 있듯이 ReLU 전환이 비 ReLU 전환보다 더 낮은 교육 오류율을 달성 할 수 있음을 보여주는 바와 같이, 전환에 대한 ReLU가 학습 속도를 높입니다. 이러한 ReLU는 사라지는 기울기 / 포화 S 자형 문제를 겪지 않으며 훨씬 더 깊은 그물을 훈련시키는 데 사용될 수 있습니다. 다른 큰 혁신 중 하나는 Dropout 교육, 확률 적 소음 주입 또는 모델 평균화 기술 (관점에 따라 다름)을 사용하여 과적 합하지 않고 더 깊고 더 큰 신경망을 더 오래 훈련 할 수 있다는 것입니다.
또한 ReLU (또는 Microsoft Research의 PReLU와 같은 일부 수정), Dropout 및 순수하게 감독 된 교육 (SGD + Momentum, RMSProp 또는 ADAGrad와 같은 적응 형 학습 속도 기술을 사용하는 거의 모든 방법)을 사용하여 혁신적인 혁신이 빠른 속도로 계속 진행되었습니다. ).
현재로서는 최고의 실적을 거둔 많은 전환이 순전히 감독되는 성격을 가진 것으로 보입니다. 즉, 감독되지 않은 사전 훈련 또는 감독되지 않은 기술을 사용하는 것이 미래에 중요하지 않을 수도 있습니다. 그러나 감독 훈련을 사용하여 매우 풍부한 데이터 집합에 대해 엄청나게 깊은 전환이 훈련, 인간 수준의 성과를 달성 또는 능가했습니다. 실제로 ImageNet 2015 콘테스트에 제출 한 최신 Microsoft Research에는 150 개의 레이어가 있다고 생각합니다. 오타가 아닙니다. 150.
전환에 대해 감독되지 않은 사전 교육을 사용하려면 전환에 대한 "표준"감독 교육이 제대로 수행되지 않고 감독되지 않은 사전 교육을 시도하는 것이 가장 좋습니다.
자연 언어 모델링과 달리 이미지 데이터와 관련하여 해당 감독 대상 작업을 도와주는 감독되지 않은 작업을 찾기가 어렵습니다. 그러나 인터넷을 충분히 둘러 보면 딥 러닝의 선구자 중 일부 (Yoshua Bengio, Yann LeCun)가 비지도 학습이 얼마나 중요하다고 생각하는지 이야기합니다.
위의 답변에서 알 수 있듯이 여러 가지 일이 발생하면 사전 훈련이 '유행되었습니다'. 그러나 나는 그것을 이해하고 싶어한다.
따라서 사전 교육은 사전 처리 및 가중치 초기화 형식으로 변경되었지만 기능은 그대로 유지되어 더욱 우아해졌습니다.
마지막으로, 머신 러닝은 매우 유행합니다. 나는 Andrew Ng와 같이 개인적으로 내기하고 있으며 감독되지 않고 자율적으로 배우는 학습이 미래에 지배적이 될 것이기 때문에 이것을 종교로 만들지 마십시오. :)
자동 엔코더 나 RBM만큼 많은 논문이 있습니다. 그 이유는 NN의 타임 라인이라고 생각합니다. 스택 형 RBM 및 자동 인코더는 2006 년 과 2007 년 에 각각 소개되었습니다 . 2009 년 ReLU를 고용 한 후 비지도 학습은 부분적으로 포기됩니다 (직접지도 학습에서 배울 수있는 데이터가 충분한 경우). Convolution net (또는 LeNet)이 1989 년에 발명되었지만 ReLU 를 통한 직접 감독 학습의 대중화 이후 인 2012 년 까지는 심층 구조로 훈련 할 수 없었 습니다. 그래서 연구자들은 대부분 직접지도 학습을 사용하여 훈련했습니다.