답변:
딥 러닝 북 의 섹션 6.3.3에서 귀하의 질문에 대한 답변을 찾았습니다 . (Goodfellow et al., 2016) :
소프트 플러스 사용은 일반적으로 권장하지 않습니다. ... 어느 곳에서나 차별화가 가능하거나 완전히 포화되지 않아 정류기에 비해 이점이있을 것으로 예상 할 수 있지만 경험적으로는 그렇지 않습니다.
이 주장을 뒷받침하기위한 참고 자료로 Deep Sparse Rectifier Neural Networks (Glorot et al., 2011) 를 인용했다 .
ReLU는 특히 높은 학습 속도에서 영구적으로 꺼질 수 있습니다. 이는 누설이 많은 ReLU 및 ELU 활성화의 동기입니다. 둘 다 거의 모든 곳에서 0이 아닌 기울기를가집니다.
Leaky ReLU는 ReLU와 마찬가지로 부분 선형 함수이므로 계산이 빠릅니다. ELU는 softmax와 ReLU에 비해 출력이 0에 가까워 학습이 향상된다는 것을 의미합니다.