균일 한 초기화를 통해 (He 또는 Glorot) 일반 초기화를 언제 사용해야합니까? 그리고 배치 정규화의 효과는 무엇입니까?


51

레지던트 네트워크 (ResNet)가 일반 초기화를 대중화하게한다는 것을 알고있었습니다. ResNet에서는 He 일반 초기화가 사용되는 반면 첫 번째 레이어는 He 균일 초기화가 사용됩니다.

나는 ResNet 용지와 "정류기에 깊이 넣기"용지 (초기화 용지)를 살펴 보았지만 일반 초기화 대 균일 초기화에 대해서는 언급하지 않았습니다.

또한:

배치 정규화를 사용하면 훨씬 높은 학습 속도를 사용하고 초기화에 대해 덜주의 할 수 있습니다.

Batch Normalization 논문의 초록에서 Batch Normalization을 사용하면 초기화에 대해 덜주의를 기울일 수 있다고합니다.

ResNet 자체는 (정규적인 init을 사용하는 것이 아니라) 일반적인 init vs.

그래서:

  • 균일 한 초기화보다 정규 분산 초기화 (He 또는 Glorot)를 언제 사용해야합니까?
  • 배치 정규화에 대한 정규 분포 초기화 효과는 무엇입니까?

따로 메모 :

  • Batch Normalization에서 normal init을 사용하는 것이 좋지만,이 사실을 뒷받침 할 종이는 없습니다.
  • ResNet은 Glorot init보다 He init을 사용한다는 것을 알고있었습니다.
  • 나는 Glorot init 대 He init에 대해 이해했다 .
  • 내 질문은 Normal vs Uniform init에 관한 것입니다.

답변:


34

정상적인 대 균일 한 init는 실제로 다소 불분명 한 것 같습니다.

우리가 GlorotHe 의 초기 논문 만을 언급한다면 , 그들은 비슷한 이론적 분석을 사용합니다. 이 분산은 사용 된 활성화 함수에 맞게 조정되며 분포 유형을 명시 적으로 고려하지 않고 파생됩니다. 따라서 이론적 결론은 결정된 분산의 모든 유형의 분포에 적용됩니다. 실제로 Glorot 논문에서는 균일 한 분포가 사용되는 반면 He 논문에서는 가우스 분포가 선택됩니다. He 논문에서이 선택에 주어진 유일한 "설명"은 다음과 같습니다.

최근 심층 CNN은 대부분 가우시안 분포에서 추출한 임의 가중치로 초기화됩니다.

AlexNet 용지를 참조하십시오 . 실제로 Glorot의 초기화보다 약간 늦게 릴리스되었지만 정규 분포 사용에 대한 정당성은 없습니다.

실제로 Keras 이슈 트래커 에 대한 토론에서 약간 혼란스러워 보였고 기본적으로 선호의 문제 일뿐입니다 ... 토론 중 하나는 균일하고 가우스 분포를 사용하여 Glorot 초기화를 비교하는 작은 벤치 마크입니다. 결국 유니폼이이기는 것처럼 보이지만 실제로는 명확하지 않습니다.

원래 ResNet 논문 에서는 모든 레이어에 가우시안 He init을 사용했다고 말했지만, 첫 번째 레이어에 균일 한 He init을 사용했다고 쓰여진 곳을 찾을 수 없었습니다. (어쩌면 이것에 대한 언급을 공유 할 수 있습니까?)

Batch와 함께 가우시안 초기화를 사용하는 경우 BN을 사용하면 최적화 프로세스가 초기화에 덜 민감하므로 내가 말한 규칙 일뿐입니다.


나는 그것을 잘못 읽었다. ResNet은 균일 한 초기화를 전혀 사용하지 않는 것이 맞습니다. 나는 정정되었다.
rilut

0

1
링크 만 게시하지 마십시오. 잠시 후 링크가 끊어 질 수 있으며 새로운 독자는 답변을 확인할 수 없습니다. 링크를 게시 할 수 있지만 항상 가장 중요한 부분의 요약을 텍스트로 추가하십시오.
Tasos

@Tasos는 잘 언급했다. 요약하기에는 너무 많은 정보가 있었기 때문에 대신 링크를 게시했는데 링크가 끊어 졌음을 지적합니다. 감사.
록시 네
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.