논문 : Layer Normalization, Recurrent Batch Normalization (2016), Batch Normalized RNN (2015)의 차이점은 무엇입니까?


30

최근에는 레이어 정규화 용지가 있습니다. Keras 에도 구현되어 있습니다 .

그러나 Recurrent Batch Normalization (Cooijmans, 2016) 및 Batch Normalized Recurrent Neural Networks (Laurent, 2015) 라는 제목의 논문이 있습니다 . 이 세 가지의 차이점은 무엇입니까?

이해가 안되는 관련 작업 섹션이 있습니다.

배치 정규화는 이전에 반복적 인 신경망으로 확장되었다 [Laurent et al., 2015, Amodei et al., 2015, Cooijmans et al., 2016]. 이전 연구 [Cooijmans et al., 2016]는 각 시간 단계에 대해 독립적 인 정규화 통계를 유지함으로써 반복 배치 정규화의 최상의 성능을 얻는다고 제안합니다. 저자는 반복 배치 정규화 계층에서 게인 매개 변수를 0.1로 초기화하면 모델의 최종 성능에 큰 차이가 있음을 보여줍니다. 우리의 작업은 또한 체중 표준화와 관련이 있습니다 [Salimans and Kingma, 2016]. 가중치 정규화 에서 분산 대신 들어오는 가중치의 L2 규범을 사용하여 합산 된 입력을 뉴런으로 정규화합니다.. 예상 통계를 사용하여 가중치 정규화 또는 배치 정규화를 적용하는 것은 원래 피드 포워드 신경망의 다른 매개 변수화와 동일합니다. ReLU 네트워크에서의 재 파라미터 화는 Pathnormalized SGD에서 연구되었다 [Neyshabur et al., 2015]. 그러나 제안 된 레이어 정규화 방법 은 원래 신경망의 매개 변수화아닙니다. 따라서 레이어 정규화 된 모델은 다른 방법는 다른 불변 속성을 가지므로 다음 섹션에서 살펴볼 것입니다.

답변:


25
  • 레이어 정규화 ( Ba 2016 ) : 배치 통계를 사용하지 않습니다. 현재 샘플 레이어 내 모든 단위에서 수집 된 통계를 사용하여 정규화합니다. ConvNets에서는 제대로 작동하지 않습니다.

  • BN (Recurrent Batch Normalization) ( Cooijmans, 2016 ; Qianli Liao & Tomaso Poggio와 동시에 제안 되었지만 RNN / LSTM 대신 Recurrent ConvNets에서 테스트 됨) : 배치 정규화와 동일합니다. 각 시간 단계마다 다른 정규화 통계를 사용하십시오. 각 시간 단계에 대한 평균 및 표준 편차 세트를 저장해야합니다.

  • 배치 정규화 반복 신경망 ( Laurent, 2015 ) : 배치 정규화는 입력과 숨겨진 상태 사이에만 적용되지만 숨겨진 상태에는 적용되지 않습니다. 즉, 정규화는 시간이 지남에 따라 적용되지 않습니다.

  • 스트리밍 정규화 ( Liao et al. 2016 ) : 기존 정규화를 요약하고 위에서 언급 한 대부분의 문제를 극복합니다. ConvNets, 반복 학습 및 온라인 학습 (예 : 작은 미니 배치 또는 한 번에 하나의 샘플)에서 잘 작동합니다.

  • 가중치 정규화 ( Salimans and Kingma 2016 ) : 가중치를 사용할 때마다 표준으로 먼저 나눠서 결과 가중치가 표준 됩니다. 즉, 출력 . 여기서 와 는 각각 입력과 가중치를 나타냅니다. 그런 다음 스칼라 스케일링 계수 에 출력 를 곱합니다 . 그러나 내 경험상 는 성능에 필수적이지 않은 것 같습니다 (또한 다운 스트림 학습 가능한 레이어는 이것을 어쨌든 배울 수 있습니다).L2L21y=x(w/|w|)xwgy=ygg

  • 코사인 정규화 ( Luo et al. 2017 ) : 가중치 정규화는 코사인 정규화와 매우 유사하며, 여기서 동일한 정규화가 가중치와 입력 모두에 적용됩니다 : . 다시, 수동 또는 자동 미분은 및 의 적절한 기울기를 계산할 수 있습니다 .L2y=(x/|x|)(w/|w|)xw

모두 참고 무게코사인 정규화는 광범위 생물학적 비전을 모델링 HMAX (1999 Riesenhuber)라고 ConvNets의 클래스에서 2000 년대에 (라고 정규화 된 내적을) 사용되어왔다. 그것들이 흥미로울 것입니다.

참고 : HMAX 모델 참조

참조 : 피질 네트워크 시뮬레이터 참조

참조 : 코사인 정규화 : 신경망에서 도트 곱 대신 코사인 유사성 사용 , Luo Chunjie, Zhan jianfeng, Wang lei, Yang Qiang

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.