모든 활성화 레이어에 ReLU를 사용할 때 깊은 컨볼 루션 신경망에 음의 가중치 (충분한 에포크 후)를 가질 수 있습니까?
모든 활성화 레이어에 ReLU를 사용할 때 깊은 컨볼 루션 신경망에 음의 가중치 (충분한 에포크 후)를 가질 수 있습니까?
답변:
정류 선형 단위 (ReLU) 는 뉴런 의 출력 을 음이 아닌 것으로 만 만듭니다 . 그러나 네트워크의 매개 변수는 훈련 데이터에 따라 양수 또는 음수가 될 수 있습니다.
내가 지금 생각할 수있는 두 가지 이유는 다음과 같습니다.
매개 변수의 정규화 (일명 무게 감량); 매개 변수 값의 변동은 예측을 가능하게하고, 매개 변수가 0을 중심으로하는 경우 (즉, 평균이 0에 가까울 경우), 규범 (표준 정규화 기)은 낮습니다.
레이어 매개 변수와 관련하여 레이어의 출력 기울기는 레이어에 대한 입력에 의존하지만 (이전 레이어가 출력을 ReLU를 통과한다고 가정 할 때 항상 양수 임), 오류의 기울기는 최종 출력 층들에 더 가까운 층들로부터)은 양수 또는 음수 일 수 있으며, SGD가 다음 경사 단계를 수행 한 후에 일부 파라미터 값들을 음수로 만들 수있다. 보다 구체적으로, , 및 는 신경망에서 계층의 입력, 출력 및 파라미터를 나타낸다고하자. 또한 는 일부 훈련 샘플에 의해 유발 된 네트워크의 최종 오차 라고하자 . 대한 오차의 기울기는 다음과 같이 계산됩니다. ; 참고 (아래 그림 참조) :
Leaky ReLU와 같은 다른 활성화 기능을 사용하지 않는 한. 첫 번째 레이어 이후에 수정 된 레이어의 가중치는 훈련에 얼마나 많은 에포크가 있는지에 관계없이 음이 아닙니다.