왜 토폴로지에 제한이있어 신경망이 더 나은 것처럼 보입니까?


29

백프로 프 네트워크는 완전히 연결된 (적어도 2 개 이상의 숨겨진 계층을 가진 계층 간) 백프로 프 네트워크입니다. 불행히도, 그들은 종종 배우기가 느리고 지나치게 적합하거나 어색한 일반화를하는 경향이 있습니다.

이 네트워크에 장난을 치면서 나는 가장자리의 일부를 잘라내는 것이 (무게가 0이고 변경이 불가능하도록) 네트워크가 더 빨리 배우고 일반화되는 경향이 있음을 관찰했습니다. 이것에 대한 이유가 있습니까? 가중치 검색 공간의 차원이 감소하기 때문입니까, 아니면 더 미묘한 이유가 있습니까?

또한 더 나은 일반화가 내가보고있는 '자연적인'문제의 인공물입니까?

답변:


9

노드 / 에지가 적거나 (가중치가 고정 된 엣지)는 값을 찾아야하는 매개 변수가 더 적다는 것을 의미하며, 이는 일반적으로 학습 시간을 단축시킵니다. 또한, 더 적은 파라미터가있을 때 , 신경망에 의해 표현 될 수있는 공간 은 더 작은 치수를 가지므로, 신경망은보다 일반적인 모델만을 표현할 수있다. 따라서 데이터에 과적 합할 가능성이 적으므로 모델이 더 일반적으로 보입니다.


5

가장자리를 잘라 내면 훈련 알고리즘의 검색 공간이 줄어들어 시간 성능이 즉시 향상됩니다. 네트워크가 모델링 할 수있는 기능에 대한 제약 조건도 도입했습니다. 더 정확한 솔루션에 도달 할 수 없으므로 구속 조건으로 인해 모델이보다 일반적인 솔루션을 찾도록 할 수 있습니다. 신경망 훈련을위한 일반적인 기술은 경사 하강 기술을 사용하는 것입니다. 가지 치기의 또 다른 결과는 매개 변수 환경에서 일부 지역 최소값을 제거하여 훈련 알고리즘이 더 나은 솔루션을 찾을 수있게하는 결과 일 수 있습니다.

더 나은 일반화가 현재보고있는 문제와 관련이 있다고해도 놀라지 않을 것입니다. 기본 모델이 연속 구조를 갖는 신경망에서 성공을 거두었지만 불연속성이있는 경우에는 효과가 없었습니다. 또한 신경망 성능은 입력 및 출력 구조와 밀접한 관련이 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.