배치 규범에 학습 가능한 규모와 변화가있는 이유는 무엇입니까?


13

내가 이해하는 한 배치 규범은 모든 입력 기능을 레이어의 정규 분포로 정규화합니다. (μ=0,σ=1). 평균 및 분산 는 현재 미니 배치에 대한 값을 측정하여 추정됩니다.μ,σ2

정규화 후 입력은 스칼라 값으로 스케일링되고 이동됩니다.

엑스^나는'=γ엑스^나는+β

(여기서 내가 틀렸다면 정정하십시오. 여기서 조금 확신이 가지 않습니다.)

γ 및 는 스칼라 값이며 모든 배치 노름 레이어마다 한 쌍이 있습니다. 그들은 백프로 프와 SGD를 사용하여 가중치와 함께 배웁니다.β

내 질문은, 입력 자체가 레이어 자체의 가중치에 의해 어떤 식 으로든 스케일 및 시프트 될 수 있기 때문에 이러한 매개 변수가 중복되지 않습니까? 다시 말해

와이=엑스^'+

엑스^'=γ엑스^+β

그때

와이='엑스^+'

여기서 및 입니다.'=γ'=β+

그렇다면 네트워크에 추가하는 요점은 이미 규모와 변화를 배울 수 있습니까? 아니면 완전히 오해하고 있습니까?

답변:


13

딥 러닝 북 섹션 8.7.1 에는 완벽한 해답이 있습니다 .

단위의 평균 및 표준 편차를 정규화하면 해당 단위를 포함하는 신경망의 표현력을 줄일 수 있습니다. 네트워크의 표현력을 유지하기 위해 숨겨진 단위 활성화 H 배치를 단순히 정규화 된 H가 아닌 γH + β로 대체하는 것이 일반적입니다. 변수 γ 및 β는 새로운 변수가 모든 평균과 표준 편차. 언뜻보기에 이것은 쓸모없는 것처럼 보일 수 있습니다. 왜 우리는 평균을 0으로 설정 한 다음 임의의 값 β로 다시 설정할 수있는 매개 변수를 도입 했습니까?

새로운 매개 변수화는 기존 매개 변수화와 동일한 입력 함수를 나타낼 수 있지만 새로운 매개 변수화는 학습 역학이 다릅니다. 구 매개 변수화에서, H의 평균은 H 아래의 층들에서 파라미터들 간의 복잡한 상호 작용에 의해 결정되었다. 새로운 매개 변수화에서, γH + β의 평균은 β에 의해서만 결정된다. 새로운 매개 변수화는 그라디언트 디센트로 배우기가 훨씬 쉽습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.