편견을 어떻게 초기화하고 정규화해야합니까?


13

나는 커널 초기화에 대한 몇 가지 논문을 읽었으며 많은 논문에서 커널의 L2 정규화를 사용한다고 언급합니다 (종종 ).λ=0.0001

상수 0으로 바이어스를 초기화하고 정규화하지 않는 것과 다른 일이 있습니까?

커널 초기화 논문

답변:


15

Stanford CS231N Notes ( http://cs231n.github.io/neural-networks-2/ )에서 :

바이어스를 초기화합니다. 비대칭 파괴는 가중치의 작은 난수에 의해 제공되므로 바이어스를 0으로 초기화하는 것이 가능하고 일반적입니다. ReLU 비선형 성의 경우 일부 사람들은 모든 바이어스에 대해 0.01과 같은 작은 상수 값을 사용하는 것을 좋아합니다. 이는 모든 ReLU 장치가 처음에 발사되어 일부 기울기를 얻거나 전파하기 때문입니다. 그러나 이것이 일관된 개선을 제공하는지 (실제로 일부 결과가 이것이 더 나쁜 성능을 나타내는 것으로 보이는지) 명확하지 않으며 단순히 0 바이어스 초기화를 사용하는 것이 더 일반적입니다.

LSTM에서는 바이어스를 1로 초기화하는 것이 일반적입니다 (예 : http://www.jmlr.org/proceedings/papers/v37/jozefowicz15.pdf 참조) .

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.