ReLU 대신 Leaky ReLU를 사용하는 이점은 이런 방식으로 사라지는 그라디언트를 가질 수 없다는 것입니다. 파라 메트릭 ReLU는 네가티브 입력에 대한 출력의 기울기가 학습 가능한 매개 변수 인 반면, Leaky ReLU에서는 하이퍼 파라미터라는 유일한 차이점과 동일한 장점이 있습니다.
그러나 Leaky ReLU 또는 Parametric ReLU 대신 ReLU를 사용하는 것이 더 편리한 경우가 있는지 알 수 없습니다.
ReLU 대신 Leaky ReLU를 사용하는 이점은 이런 방식으로 사라지는 그라디언트를 가질 수 없다는 것입니다. 파라 메트릭 ReLU는 네가티브 입력에 대한 출력의 기울기가 학습 가능한 매개 변수 인 반면, Leaky ReLU에서는 하이퍼 파라미터라는 유일한 차이점과 동일한 장점이 있습니다.
그러나 Leaky ReLU 또는 Parametric ReLU 대신 ReLU를 사용하는 것이 더 편리한 경우가 있는지 알 수 없습니다.
답변:
하이퍼 파라미터 화 된 1 개의 누수 변형 인 ReLU 와 학습 중 동적 파라미터가있는 변형을 결합하면 다음 두 가지가 혼동됩니다.
ReLU가 파라 메트릭이 아닌 이유는이를 중복시키는 것이기 때문입니다. 음의 도메인에서는 상수 0입니다. 음이 아닌 도메인에서 그 파생물은 일정합니다. 활성화 입력 벡터가 이미 벡터 매트릭스 제품 (매트릭스, 큐브 또는 하이퍼 큐브에 감쇠 매개 변수가 포함되어 있음)을 사용하여 감쇠되었으므로, 음이 아닌 도메인에 대한 상수 미분 값을 변경하는 매개 변수를 추가하는 데 유용한 목적은 없습니다 .
활성화에 곡률이있는 경우 모든 활성화 계수가 매개 변수로 중복되는 것은 더 이상 사실이 아닙니다. 이들의 가치는 훈련 과정과 수렴의 속도와 신뢰성을 상당히 변화시킬 수 있습니다.
실질적으로 딥 네트워크의 경우 중복성이 다시 나타나며, 이론과 실무 모두에 대한 증거가 있습니다.
이것이 더 얕은 네트워크에 대해 위에서 언급 한 채도 문제를 방지하는 데 유리한 ELU 종류가 더 깊은 네트워크에 사용되지 않는 이유입니다.
따라서 두 가지를 결정해야합니다.
요약하면, 선택은 결코 편리한 선택이 아닙니다.
각주
[1] 하이퍼 파라미터는 해당 레이어에 대한 입력 감쇠의 일부가 아닌 레이어를 통한 신호에 영향을 미치는 파라미터입니다. 감쇠 가중치는 매개 변수입니다. 다른 모든 매개 변수화는 하이퍼 매개 변수 세트에 있습니다. 여기에는 학습 속도, 역 전파의 고주파 감쇠, 전체 네트워크가 아닌 경우 전체 계층에 대해 설정된 다양한 기타 학습 제어가 포함될 수 있습니다.
[2] 그래디언트가 0이면 조정 방향을 알 수 없으므로 매개 변수를 지능적으로 조정할 수 없으며 크기는 0이어야합니다. 학습이 중단됩니다.
[3] CPU가 매우 작은 값을 가장 가까운 디지털 표현으로 반올림 할 때 발생할 수있는 혼란스러운 노이즈가 레이어로 다시 전파되도록하는 보정 신호를 지배하면 보정이 말이되지 않고 학습이 중지됩니다.
수렴 률은 학습 결과 (시스템 거동)가 충분히 좋은 것으로 접근하는 속도 (마이크로 초 또는 알고리즘의 반복 인덱스에 대한 상대적인 속도)를 측정 한 것입니다. 그것은 일반적으로 수렴 (학습)에 대한 공식적인 수용 기준에 근접한 것입니다.
[5] 곡률 기능은 직선 또는 평면으로 보이지 않는 기능입니다. 포물선에는 곡률이 있습니다. 직선은 그렇지 않습니다. 계란의 표면에는 곡률이 있습니다. 완벽한 평면은 그렇지 않습니다. 수학적으로 함수의 Hessian 요소가 0이 아닌 경우 함수는 곡률을 갖습니다.