신경망에서 바이어스 단위에 대한 정규화 용어 없음


14

딥 러닝 에 대한 이 튜토리얼에 따르면 , 체중 감량 (레귤레이션)은 일반적으로 왜 바이어스 용어에 적용되지 않습니까?

배후의 의미 (직관)는 무엇입니까?


나는 전에 매우 비슷한 질문을 본 적이 있다고 생각합니다. 단지 찾을 수 없습니다 ... 아마도 관련 질문을 검토 한 다음 그 답을 찾을 것입니다. 또한 아마도 이것이 다소 유용 할 수 있습니다.
Richard Hardy

답변:


14

과적 합은 일반적으로 모델의 출력이 입력 데이터의 작은 변화에 민감해야합니다 (즉, 목표 값을 정확하게 보간하려면 적합 함수에 많은 곡률이 필요한 경향이 있습니다). 치우침 매개 변수는 모형의 곡률에 영향을주지 않으므로 정규화하는 데 거의 아무런 의미가 없습니다.


5

L2 (또는 L1)의 동기는 가중치를 제한하고 네트워크를 제한함으로써 과적 합 가능성이 줄어든다는 것입니다. 바이어스가 고정되어 있기 때문에 (예를 들어 b = 1) 바이어스의 가중치를 제한하는 것은 거의 의미가 없으므로 뉴런 인터셉트와 같이 작동하므로 더 높은 유연성이 제공됩니다.


1

편향 용어는 종종의 평균 1보다는 초기화되어 0있기 때문에 오히려과 같은 상수 값에서 너무 멀리 떨어지지 않도록 정규화 1하는 1/2*(bias-1)^2것이 좋습니다 1/2*(bias)^2.

-1편향 평균에 대한 감산으로 부품 을 교체하는 것이 층별 평균 또는 전체 평균에 도움이 될 수 있습니다. 그러나 이것은 내가하고있는 가설 일뿐입니다 (평균 뺄셈에 대해).

이것은 모두 활성화 기능에 달려 있습니다. 예 : 바이어스가 높은 상수 오프셋으로 정규화되면 시그 모이 드가 사라지는 그라데이션에 적합하지 않을 수 있습니다.


0

이 튜토리얼에서는 "바이어스 유닛에 무게 감퇴를 적용하면 일반적으로 최종 네트워크와 약간의 차이가 있습니다"라고 말합니다. 오프셋을 정규화하는 것이 설정에 도움이된다고 생각되면 교차 검증하십시오. 노력해도 아무런 해가 없습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.