스택 형 오토 인코더와 2 계층 신경망 훈련간에 차이가 있습니까?

2 레이어 스택 형 자동 인코더와 2 레이어 신경망을 구축하는 알고리즘을 작성한다고 가정 해 봅시다. 그것들이 같은 것입니까 아니면 차이점입니까?

내가 이해하는 것은 누적 된 자동 인코더를 빌드 할 때 레이어별로 빌드한다는 것입니다. 신경망의 경우, netowork의 모든 매개 변수를 초기화 한 다음 각 데이터 포인트에 대해 네트워크를 통해 전달하고 손실 (예 : euclean distance)을 계산하고 역 전파를 수행합니다.

neural-networks deep-learning autoencoders

— RockTheStar
소스

스택 형 자동 인코더와 다층 신경망은 다릅니다. 실제로 두 네트워크가 가중치를 공유하고 메모리 버퍼를 공유 할 수 있습니다. 따라서 구현시 두 네트워크가 얽혀 있습니다.

일반적으로, 자동 엔코더는 감독되지 않은 욕심 많은 레이어 방식으로 훈련됩니다. (레이블이없고 네트워크의 첫 번째 레이어로 트레이닝을 시작한 다음 새 레이어를 추가하십시오.) 가중치는 "배치"그라디언트 디센트 (다시하지 마십시오)에 이르는 다양한 기술을 사용하여 학습 할 수 있습니다. L-BFGS와 같은 준-뉴턴 방법에 이르기까지 확률 적 구배 하강 (SGD)을 미니 배치하기 위해.

아이디어는 표현 학습 작업에 대한 재구성 오류를 최소화하기 위해 감독되지 않은 방식으로 학습 된 가중치가 분류 또는 유사성과 같은 감독 된 차별 작업에 대한 네트워크를 초기화하기에 좋은 출발점을 제공한다는 것입니다. 즉, 네트워크는 레이블이없는 데이터를보고 레이블이 지정된 데이터를 구별 할 수있게하여 기본 분포에 대해 무언가를 배웁니다. 그러나이 새로운 작업을 위해서는 가중치를 여전히 "미세 조정"해야합니다. 따라서 네트워크 상단에 로지스틱 회귀 계층을 추가 한 다음 레이블이 지정된 데이터 세트로지도 학습을 수행하십시오. 미세 조정 단계는 경사 하강을 수행 하고 네트워크의 모든 레이어에 대한 가중치를 동시에 조정합니다 .

신경망을 훈련시키는이 방법의 장점은 다음과 같습니다.

비지도 교육을 통해 레이블이있는 데이터를 관리하는 것보다 큰 비지도 데이터 세트를 얻는 것이 훨씬 쉬워 네트워크에 더 많은 데이터를 표시 할 수 있습니다.
사전 훈련 된 네트워크를 새로운 분류자를 훈련시키기위한 "점프 오프 포인트"로 사용할 수 있으므로 매번 처음부터 시작할 필요가 없습니다.

이 백서는 스택 형 노이즈 제거 자동 인코더 : 로컬 노이즈 제거 기준을 사용하여 딥 네트워크에서 유용한 표현 학습을 참조하십시오 .

— 사발 라바
소스

분류 작업을 위해 분류 계층 (예 : softmax 계층)으로 인코딩 계층을 훈련시키는 두 번째 단계에 대해 혼란스러워합니다. 이 부분에서 레이블을 배우기 위해 학습 데이터 세트를 다시 사용합니까? 훈련 세트가 그 자체의 근사치를 배우기 위해 사용 되었기 때문에 나는이 이상한 것을 발견한다.

— guy

레이블이 지정된 데이터가 모두 있으면 의미가 없습니다. 레이블이 지정되지 않은 데이터가 훨씬 많은 경우 사전 학습 한 다음 레이블이 지정된 "교육"데이터를 사용하여 미세 조정하는 것이 더 좋습니다.

— meow