소프트 플러스에 비해 ReLU를 활성화 기능으로 사용하면 어떤 이점이 있습니까?


21

정류 선형 단위 (ReLU)는 선형적이고 계산이 빠르기 때문에 softplus 단위를 대체했습니다.

소프트 플러스가 여전히 희소성을 유도하는 이점이 있습니까? 아니면 ReLU로 제한됩니까?

내가 묻는 이유는 ReLU의 제로 기울기의 부정적인 결과에 대해 궁금해하기 때문입니다. 이 속성이 재 활성화 가능성을 제공하는 데 도움이되는 단위를 "트랩"하지 않습니까?


이것에 대한 답을 찾은 적이 있습니까?
Charlie Parker

답변:


4

딥 러닝 북 의 섹션 6.3.3에서 귀하의 질문에 대한 답변을 찾았습니다 . (Goodfellow et al., 2016) :

소프트 플러스 사용은 일반적으로 권장하지 않습니다. ... 어느 곳에서나 차별화가 가능하거나 완전히 포화되지 않아 정류기에 비해 이점이있을 것으로 예상 할 수 있지만 경험적으로는 그렇지 않습니다.

이 주장을 뒷받침하기위한 참고 자료로 Deep Sparse Rectifier Neural Networks (Glorot et al., 2011) 를 인용했다 .


1
"하지만 경험적으로는 그렇지 않습니다"에 대한 설명이 더 필요하다고 생각합니다.
nbro

2

ReLU는 특히 높은 학습 속도에서 영구적으로 꺼질 수 있습니다. 이는 누설이 많은 ReLU 및 ELU 활성화의 동기입니다. 둘 다 거의 모든 곳에서 0이 아닌 기울기를가집니다.

Leaky ReLU는 ReLU와 마찬가지로 부분 선형 함수이므로 계산이 빠릅니다. ELU는 softmax와 ReLU에 비해 ​​출력이 0에 가까워 학습이 향상된다는 것을 의미합니다.


"거의 어디에나"무엇을 의미합니까?
nbro

1
"거의 어디에나"는 "무한한 작은 점을 제외하고"와 같은 것을 의미하는 기술 용어입니다. 예를 들어, 누출 ReLU에는 x = 0으로 정의 된 기울기가 없습니다.
휴 퍼킨스
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.