답변:
편향 용어는 종종의 평균 1
보다는 초기화되어 0
있기 때문에 오히려과 같은 상수 값에서 너무 멀리 떨어지지 않도록 정규화 1
하는 1/2*(bias-1)^2
것이 좋습니다 1/2*(bias)^2
.
-1
편향 평균에 대한 감산으로 부품 을 교체하는 것이 층별 평균 또는 전체 평균에 도움이 될 수 있습니다. 그러나 이것은 내가하고있는 가설 일뿐입니다 (평균 뺄셈에 대해).
이것은 모두 활성화 기능에 달려 있습니다. 예 : 바이어스가 높은 상수 오프셋으로 정규화되면 시그 모이 드가 사라지는 그라데이션에 적합하지 않을 수 있습니다.