현재 신경망 시험을 준비 중입니다. 이전 시험의 여러 프로토콜에서 (다층 퍼셉트론에서) 뉴런의 활성화 기능이 단조로워 야한다는 것을 읽었습니다.
활성화 함수는 미분 가능해야하며, 대부분의 점에서 0이 아닌 미분이어야하며 비선형이어야합니다. 왜 단조로운 것이 중요하고 도움이되는지 이해하지 못합니다.
다음과 같은 활성화 기능을 알고 있으며 단조로운 기능입니다.
- RELU
- 시그 모이 드
- 탄
- Softmax : 단 조성의 정의가 함수 적용되는지 확실하지 않습니다 : R n → R m with
- 소프트 플러스
- (정체)
그러나 여전히 와 같은 이유를 알 수 없습니다 .
활성화 기능이 단조로운 이유는 무엇입니까?
(관련 부가 질문 : 로그 / 지수 함수가 활성화 함수로 사용되지 않는 이유가 있습니까?)