여기 에 대답은 sigmoid
유사한 활성화 기능에 있었지만 소멸 Relu
이 있으며 예상 값인 그라디언트 소멸 및 폭발을 나타냅니다 . 의 출력에는 제한이 없으므로 Relu
예상 값이 0이 아닙니다. 나는 Relu
그것 의 인기가 이전 tanh
보다 머신 러닝 전문가들 사이에서 가장 인기있는 시간을 기억합니다 sigmoid
. 그 이유는의 예상 값이 tanh
0과 같았으며 신경망에서 더 깊은 계층에서의 학습이 더 빠르다는 데 도움이 되었기 때문입니다. Relu
이 특성이 없지만 파생적 이점을 제쳐두고 왜 그렇게 잘 작동합니까? 또한 파생 상품도 영향을받을 수 있습니다. 활성화 (출력의Relu
)는 업데이트 규칙을 계산하는 데 관여합니다.
CNN
정규화에서 출력은 relu
일반적이지 않습니까? 적어도 나는 그것을 본 적이 없다.