가중치를 0으로 초기화하는 것이 왜 위험한가요? 그것을 보여주는 간단한 예가 있습니까?
가중치를 0으로 초기화하는 것이 왜 위험한가요? 그것을 보여주는 간단한 예가 있습니까?
답변:
편집 아래 알파의 의견을 참조하십시오. 나는 신경망 전문가가 아니기 때문에 그를 연기 할 것입니다.
내 이해는 여기에 게시 된 다른 답변과 다릅니다.
역전 파에는 곱하지 않고 기존 가중치를 더하는 것이 포함됩니다 . 추가하는 금액은 델타 규칙에 의해 지정됩니다 . wij는 방정식의 오른쪽에 나타나지 않습니다.
내 이해는 초기 가중치를 0으로 설정하지 않는 두 가지 이유가 있다는 것입니다.
첫째, 신경망은 국소 최소 점에 갇히는 경향이 있으므로 여러 가지 다른 시작 값을 부여하는 것이 좋습니다. 모두 0에서 시작하면 그렇게 할 수 없습니다.
둘째, 뉴런이 동일한 가중치로 시작하면 모든 뉴런은 동일한 기울기를 따르며 항상 서로 같은 일을합니다.
베이지안 네트워크에서와 같이 가중치를 이전과 같이 생각한 경우 해당 입력이 시스템에 영향을 줄 수있는 가능성을 배제했습니다. 또 다른 설명은 역 전파가 목표 값과 관측 값 사이의 가중 제곱 차이를 최소화하는 가중치 집합을 식별한다는 것입니다 (E). 그렇다면 시스템의 방향을 결정하는 관점에서 기울기 하강 알고리즘의 방향을 어떻게 지정할 수 있습니까? 매개 변수 공간의 안 장점에 자신을 배치하고 있습니다.
역 전파 알고리즘의 각 반복에서 기존 가중치에 역 전파에 의해 결정된 델타를 곱하여 가중치를 업데이트합니다. 초기 가중치 값이 0 인 경우 값에 델타 값을 곱해도 가중치가 변경되지 않으므로 각 반복이 최적화하려는 가중치에 영향을 미치지 않습니다.