가중치를 동일한 값으로 초기화 할 때 역 전파가 작동하지 않는 이유는 무엇입니까?

20

왜 모든 가중치를 동일한 값 (예 : 0.5)으로 초기화 할 때 역 전파가 작동하지 않지만 임의의 숫자가 주어지면 제대로 작동합니까?

가중치가 초기에 동일하다는 사실에도 불구하고 알고리즘이 오류를 계산하고 거기서부터 작동해서는 안됩니까?

machine-learning neural-networks backpropagation

— 사용자 1724140
소스

26

대칭 파괴.

모든 가중치가 동일한 값으로 시작하고 솔루션에서 동일하지 않은 가중치를 개발해야하는 경우 시스템은 학습 할 수 없습니다.

이는 가중치 값에 비례하여 가중치를 통해 오류가 다시 전파되기 때문입니다. 즉, 출력 장치에 직접 연결된 모든 숨겨진 장치는 동일한 오류 신호를 받게되며 무게 변화는 오류 신호에 따라 달라 지므로 해당 장치에서 출력 장치까지의 무게는 항상 같아야합니다. 시스템은 무게를 동일하게 유지하는 일종의 불안정한 평형 점에서 시작하지만 오류 표면의 일부 인접 점보다 높으며 일단이 점 중 하나로 이동하면 절대로 돌아 오지 않습니다. 작은 임의 가중치로 시스템을 시작하여이 문제를 방지합니다. 이러한 조건에서 이러한 종류의 대칭 문제는 발생하지 않습니다.

— 이
소스

따라서 NN의 초기 가중치는 훈련 속도를 결정할뿐만 아니라 학습의 원인이 될 수 있습니까?

— user1724140

2

그렇습니다. 때때로, 우리는 단지 한 세트의 무게에 대해서만 훈련하지 않습니다 (예를 들어 신경망). 시간이 있다면 할 수있는 한 가지 일반적인 일은 시작 가중치 구성을 여러 개 만들고 네트워크를 훈련시키는 것입니다. 때로는 하나의 구성이 로컬 최적화로 끝나거나 가중치가 실제로 무작위 화되지 않은 경우가 발생할 수 있습니다.

— ThiS December

다른 입력이 여전히 대칭을 깰 수 있기 때문에 이것은 잘못이 아닙니다. 참조 : open.wolframcloud.com/env/…

— user3180

12

$R^n \rightarrow R$

당신이 그것을 세계 최소로 원하지만 그것을 찾을 수있는 보장 된 방법은 없습니다. 그리고 표면에 여러 개의 로컬 최소값이 있으면 문제가있을 수 있습니다.

그러나 몇 개만 있으면 Thierry의 전략이 효과가 있습니다. 무작위로 선택한 지점에서 시작하여 지역 최소값을 여러 번 검색하면 전 세계 최소값을 찾을 가능성이 높아집니다.

그리고 최소한의 경우가있는 행복한 경우-초기 무게 벡터가 당신을 이끌 것입니다.

— 로 히트 채 터지
소스