우선, 일부 알고리즘은 초기 가중치가 0이더라도 수렴합니다. 간단한 예는 선형 퍼셉트론 네트워크입니다. 물론, 많은 학습 네트워크는 임의의 초기 가중치를 필요로합니다 (이가 가장 빠르고 최상의 답변 을 얻을 수 있다는 보장 은 아니지만 ).
신경망은 역 전파를 사용하여 가중치를 학습하고 업데이트합니다. 문제는이 방법에서 가중치 가 글로벌 최적이 아닌 로컬 최적 (로컬 최소 비용 / 손실)에 수렴된다는 것 입니다.
랜덤 가중치 는 네트워크가 사용 가능한 공간의 각 방향에 대한 기회 를 잡고 점진적으로 개선 하여 한 방향 이나 답변에 국한되지 않고 더 나은 답변에 도달 하도록 도와줍니다 .
[아래 이미지는 어떻게 수렴하는지 1 차원적인 예를 보여줍니다. 초기 위치가 주어지면 로컬 최적화가 이루어 지지만 글로벌 최적화는 이루어지지 않습니다. 더 높은 차원에서 무작위 가중치는 올바른 위치에 있거나 더 나은 시작 가능성을 증가시켜 가중치를 더 나은 값으로 수렴 할 수 있습니다.] [1]
[1] : https://i.stack.imgur.com/2dioT.png [Kalhor, A. (2020). 분류 및 회귀 NN. 강의.]
가장 간단한 경우 새 가중치는 다음과 같습니다.
W_new = W_old + D_loss
여기에서 비용 함수 기울기가 이전 가중치에 추가되어 새 가중치를 얻습니다. 이전 가중치가 모두 동일하면 다음 단계에서 모든 가중치가 동일 할 수 있습니다. 결과적으로이 경우 기하학적 관점에서 신경망은 한 방향으로 기울어지고 모든 가중치는 동일합니다. 그러나 가중치가 다른 경우 가중치를 다른 양으로 업데이트 할 수 있습니다. (각 가중치가 결과에 미치는 영향 계수에 따라 비용 및 가중치 업데이트에 영향을 미치므로 초기 임의 가중치의 작은 오류도 해결할 수 있습니다.)
이것은 매우 간단한 예이지만 무작위 가중치 초기화가 학습에 미치는 영향을 보여줍니다. 이를 통해 신경망은 한쪽이 아닌 다른 공간으로 이동할 수 있습니다. 결과적으로 학습 과정에서 최고의 공간으로 이동하십시오.