신경망의 초기 가중치가 랜덤 화되는 이유는 무엇입니까?


10

신경망에 대한 경험이 많은 사람에게는 어리석게 들릴 수 있지만 나를 귀찮게합니다 ...

초기 가중치를 무작위로 지정하면 훈련 된 네트워크의 모양에 다소 가까운 더 나은 결과를 얻을 수 있지만 합리적인 가중치 범위의 경우 0.5 또는 다른 평균 인 반면, 정확한 가중치와 일치 할 수 있습니다. 가치는 좋은 기본 설정처럼 들릴 것입니다 ...

뉴런의 초기 가중치가 왜 모든 것이 아닌 0.5가 아닌 랜덤 화됩니까?


편집시 어떤 문제가 발생 했습니까? 당신은 향상 될 수 없다고 생각합니까?
nbro

@nbro는 여러 가지 질문을 추가하여 너무 광범위하게 만듭니다.
Matas Vaitkevicius

귀하의 게시물에없는 질문은 무엇입니까? 방금 당신이 가설이라고 말한 것을 질문으로 재구성했습니다.
nbro

그건 그렇고, 당신의 표현은 정확하지 않습니다. 가중치는 무작위 화되지 않지만 무작위로 초기화됩니다. 이것들은 두 가지 다른 개념이며 두 번째 개념을 의미했습니다. 내 편집은 문구도 향상시키기위한 것입니다.
nbro

@nbro 안녕, 내가 감사하지 않았고, 당신을 화나게하고 싶지 않은 것 같습니다. 나도 질문하고 말하고 모든 것을 나쁘다. 당신을 화나게해서 미안합니다.
Matas Vaitkevicius

답변:


6

신경망의 초기 가중치는 모든 가중치가 동일한 값으로 초기화 될 때 신경망 학습에 일반적으로 사용되는 그래디언트 기반 방법이 제대로 작동하지 않기 때문에 무작위로 초기화됩니다. 신경망을 훈련시키는 모든 방법이 구배를 기반으로하는 것은 아니지만, 대부분은 신경망을 동일한 값으로 초기화하면 네트워크가 최적의 솔루션에 수렴하는 데 훨씬 더 오랜 시간이 걸리는 것으로 나타났습니다. 또한 신경 네트워크가 로컬 최소값에 갇혀서 다시 훈련 시키려면 동일한 로컬 최소값에 멈출 것입니다. 위의 이유로 초기 가중치를 상수 값으로 설정하지 않았습니다.

참고 문헌 : 가중치를 동일한 값으로 초기화 할 때 역 전파가 작동하지 않는 이유는 무엇입니까?


실제로 모든 무게가 동일하면 고장납니다.
Quonux

9

"나침반 대칭"문제가 발생하므로 0.5를 모두 할당해서는 안됩니다.

http://www.deeplearningbook.org/contents/optimization.html

아마도 완전히 확실하게 알려진 유일한 속성은 초기 매개 변수가“ 대칭을 깨야 ”한다는 것 서로 다른 단위 사이 입니다. 활성화 기능이 동일한 두 개의 숨겨진 장치가 동일한 입력에 연결된 경우이 장치의 초기 매개 변수달라야 합니다. 이들이 동일한 초기 매개 변수를 갖는 경우, 결정 론적 비용 및 모델에 적용된 결정 론적 학습 알고리즘은 동일한 방식으로 두 유닛을 지속적으로 업데이트합니다. 모델 또는 학습 알고리즘이 확률론을 사용하여 다른 단위에 대해 다른 업데이트를 계산할 수있는 경우에도 (예 : 하나의 드롭 아웃이있는 기차 인 경우) 다른 모든 단위와 다른 기능을 계산하도록 각 단위를 초기화하는 것이 가장 좋습니다. 이것은 순방향 전파의 널 공간에서 입력 패턴이 손실되지 않고 역 전파의 널 공간에서 그라디언트 패턴이 손실되지 않도록하는 데 도움이 될 수 있습니다.


2

그것은 매우 깊은 질문입니다. 예를 들어 overparameterized 깊은 네트워크 (그라데이션 하강의 융합의 증거로 최근 논문의 시리즈가 있었다, 그라데이션 하강 깊은 신경망의 글로벌 최저치를 찾습니다 , 오버 매개 변수화를 통해 깊은 학습을위한 수렴 이론 이나 확률 그라데이션 하강를 최적화 오버 파라미터 깊은 ReLU 네트워크 ). 그들 모두는 무작위 가우시안 분포 가중치에 대한 조건 증명입니다. 증명의 중요성은 두 가지 요소에 따라 다릅니다.

  1. 임의 가중치는 ReLU를 통계적으로 압축 매핑합니다 (선형 변환까지)

  2. 임의 가중치는 모든 입력 분포에 대한 입력 분리를 유지합니다. 즉, 입력 샘플이 구별 가능한 네트워크 전파를 통해 구별 할 수없는 경우

이러한 특성은 결정 론적 행렬로 재생산하기가 매우 어렵고 결정 론적 행렬로 재현 할 수 있더라도 NULL 공간 (적대적인 예의 도메인)은 방법을 비실용적으로 만들 수 있으며, 그래디언트 디센트 (gradient descent) 동안 이러한 속성을 보존하는 것이 방법을 비실용적으로 만들 수 있습니다. 그러나 전반적으로 매우 어렵지만 불가능하지는 않으며 그 방향에 대한 연구가 필요합니다. 유사한 상황 에서 압축 감지의 결정적 행렬 에 대한 제한된 아이 소메 트리 속성에 대한 일부 결과가있었습니다 .

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.