백프로 프 네트워크는 완전히 연결된 (적어도 2 개 이상의 숨겨진 계층을 가진 계층 간) 백프로 프 네트워크입니다. 불행히도, 그들은 종종 배우기가 느리고 지나치게 적합하거나 어색한 일반화를하는 경향이 있습니다.
이 네트워크에 장난을 치면서 나는 가장자리의 일부를 잘라내는 것이 (무게가 0이고 변경이 불가능하도록) 네트워크가 더 빨리 배우고 일반화되는 경향이 있음을 관찰했습니다. 이것에 대한 이유가 있습니까? 가중치 검색 공간의 차원이 감소하기 때문입니까, 아니면 더 미묘한 이유가 있습니까?
또한 더 나은 일반화가 내가보고있는 '자연적인'문제의 인공물입니까?