ReLU 뉴런에 대한 입력 정규화


9

LeCun et al (1998)의 "Efficient Backprop"에 따르면 모든 입력이 0을 중심으로하고 최대 2 차 미분의 범위 내에 있도록 모든 입력을 정규화하는 것이 좋습니다. 예를 들어 "Tanh"함수에 [-0.5,0.5]를 사용합니다. 이것은 Hessian이 더욱 안정적이됨에 따라 역 전파 진행을 돕는 것입니다.

그러나, 나는 정류기 뉴런 (max (0, x))으로 무엇을 해야할지 확신하지 못했습니다. (그 이후로 로지스틱 함수를 사용하면 [0.1,0.9]와 같은 것을 원하지만 0을 중심으로하지는 않습니다)

답변:


7

내가 아는 한, 가장 가까운 것은 Google 연구원의 최근 기사입니다. Batch Normalization : 내부 공변량 변화를 줄임으로써 딥 네트워크 교육 가속화 .

배치 정규화

레이어를 고려 l의 활성화 출력 yl=f(Wx+b) 어디 f 비선형 성 (ReLU, tanh 등) W,b 가중치와 바이어스는 각각 x 데이터의 배치입니다.

배치 정규화 (BN)의 기능은 다음과 같습니다.

  1. 표준화 Wx+b평균이 0이고 분산이 1입니다. 우리는 미니 배치를 가로 질러 수행합니다. 허락하다x^ 표준화 된 중간 활성화 값, 즉 x^ 정규화 된 버전입니다 Wx+b.
  2. 매개 변수화 된 (학습 가능한) 아핀 변환 적용 x^γx^+β.
  3. 비선형 성을 적용합니다 : y^l=f(γx^+β).

따라서 BN은 "원시"(읽기 : 비선형 성을 적용하기 전에) 활성화 출력이 평균 0, 분산 1을 갖도록 표준화 한 다음 학습 된 아핀 변환을 적용한 다음 마지막으로 비선형 성을 적용합니다. 어떤 의미에서 우리는이를 신경망이 비선형성에 대한 적절한 매개 변수화 된 입력 분포를 학습 할 수 있도록 해석 할 수 있습니다.

모든 작업은 차별화가 가능하므로 γ,β 역 전파를 통한 파라미터.

변환 동기 부여

매개 변수화 된 아핀 변환을 수행하지 않으면 모든 비선형 성은 입력 분포로 평균 0과 분산 1 분포를 갖습니다. 이것은 차선책 일 수도 있고 아닐 수도 있습니다. 평균 제로, 분산 1 입력 분포가 최적이면 아핀 변환은 이론적으로이를 설정하여이를 복구 할 수 있습니다.β 배치 평균과 같고 γ배치 표준 편차와 같습니다. 이 매개 변수화 된 아핀 변환은 네트워크의 표현 능력을 증가시키는 추가 보너스를 제공합니다 (더 많은 학습 가능한 매개 변수).

먼저 표준화

왜 먼저 표준화해야합니까? 왜 아핀 변환을 적용하지 않습니까? 이론적으로 말하면 구별이 없습니다. 그러나 여기에 컨디셔닝 문제가있을 수 있습니다. 먼저 활성화 값을 표준화하면 최적의 학습이 쉬워집니다.γ,β매개 변수. 이것은 순전히 추측이지만, 최근의 다른 최신 conv net 아키텍처에서도 비슷한 유사점이 있습니다. 예를 들어, 최근의 Microsoft Research 기술 보고서 ​​인 Deep Residual Learning for Image Recognition 에서 실제로 ID 변환을 참조 또는 기준선으로 사용하여 변환을 수행 한 변환을 실제로 배웠습니다. Microsoft 공동 저자는이 참조 또는 기준을 설정하면 문제를 사전 조정하는 데 도움이된다고 생각했습니다. 나는 BN과 초기 표준화 단계에서 비슷한 일이 일어나고 있는지 궁금해하기에는 너무 먼 곳이라고 생각하지 않습니다.

BN 응용

특히 흥미로운 결과는 Batch Normalization을 사용하여 Google 팀이 ImageNet을 교육하고 경쟁력있는 결과를 얻을 수있는 tanh Inception 네트워크를 얻을 수 있다는 것입니다. Tanh는 포화 비선형 성이며 포화 / 소실 그라디언트 문제로 인해 이러한 유형의 네트워크를 배우기가 어렵습니다. 그러나, 배치 정규화 (Batch Normalization)를 사용하면, 네트워크가 활성화 출력 값을 탄화 비선형 성의 비 포화 영역으로 매핑하는 변환을 학습 할 수 있다고 가정 할 수있다.

최종 노트

그들은 배치 정규화에 대한 동기 부여로 언급 한 것과 동일한 Yann LeCun 사실을 참조합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.