내가 이해하는 한 배치 규범은 모든 입력 기능을 레이어의 정규 분포로 정규화합니다. . 평균 및 분산 는 현재 미니 배치에 대한 값을 측정하여 추정됩니다.
정규화 후 입력은 스칼라 값으로 스케일링되고 이동됩니다.
(여기서 내가 틀렸다면 정정하십시오. 여기서 조금 확신이 가지 않습니다.)
및 는 스칼라 값이며 모든 배치 노름 레이어마다 한 쌍이 있습니다. 그들은 백프로 프와 SGD를 사용하여 가중치와 함께 배웁니다.
내 질문은, 입력 자체가 레이어 자체의 가중치에 의해 어떤 식 으로든 스케일 및 시프트 될 수 있기 때문에 이러한 매개 변수가 중복되지 않습니까? 다시 말해
과
그때
여기서 및 입니다.
그렇다면 네트워크에 추가하는 요점은 이미 규모와 변화를 배울 수 있습니까? 아니면 완전히 오해하고 있습니까?