ReLU가 다른 활성화 기능보다 나은 이유


17

여기 에 대답은 sigmoid유사한 활성화 기능에 있었지만 소멸 Relu이 있으며 예상 값인 그라디언트 소멸 및 폭발을 나타냅니다 . 의 출력에는 제한이 없으므로 Relu예상 값이 0이 아닙니다. 나는 Relu그것 의 인기가 이전 tanh보다 머신 러닝 전문가들 사이에서 가장 인기있는 시간을 기억합니다 sigmoid. 그 이유는의 예상 값이 tanh0과 같았으며 신경망에서 더 깊은 계층에서의 학습이 더 빠르다는 데 도움이 되었기 때문입니다. Relu이 특성이 없지만 파생적 이점을 제쳐두고 왜 그렇게 잘 작동합니까? 또한 파생 상품도 영향을받을 수 있습니다. 활성화 (출력의Relu)는 업데이트 규칙을 계산하는 데 관여합니다.


ReLU와 함께 일종의 정규화 (예 : 배치 정규화, 계층 정규화)가있는 것이 일반적입니다. 출력 범위를 조정합니다.
ncasas

@ncasas 그러나 일반적인 CNN정규화에서 출력은 relu일반적이지 않습니까? 적어도 나는 그것을 본 적이 없다.
Media

매우 깊은 CNN에서는 배치 정규화를 사용하지 않는 것이 일반적입니다. 무게 초기 값의 역할을 고려 했습니까? (예 : He 초기화)
ncasas

예, 실제로 그들은 어떻게 든 사라지는 / 폭발적인 그라디언트를 방지하기 위해 반복됩니다. 일부 반복 후에 출력이 커집니다.
Media

답변:


21

ReLu의 가장 큰 장점은 실제로 그레디언트의 비포 화로 시그 모이 드 / tanh 함수 ( Krizhevsky 등의 논문) 에 비해 확률 적 그래디언트 디센트의 수렴을 크게 가속화합니다 .

그러나 이것이 유일한 이점은 아닙니다. 다음 은 ReLu 활성화 및 유도 된 정규화의 희소성 효과에 대한 설명입니다. 또 다른 좋은 특성은 값 비싼 연산 (지수 등)을 포함하는 tanh / sigmoid 뉴런과 비교할 때 ReLU는 단순히 0의 활성화 매트릭스를 임계 값으로 지정하여 구현할 수 있다는 것입니다.

그러나 나는 현대 신경 네트워크의 큰 성공이 ReLu 만으로 인한 것이라고 확신하지 않습니다 . Xavier 초기화, 드롭 아웃 및 (나중에) batchnorm과 같은 새로운 초기화 기술도 매우 중요한 역할을했습니다. 예를 들어 유명한 AlexNet은 ReLu 드롭 아웃을 사용했습니다 .

그래서 귀하의 질문에 대답하기 : ReLu은 매우 좋은 특성,하지만이 없는 이상적 . 그러나 그것은 다른 위대한 기술과 결합했을 때 실제로 증명됩니다.이 기술은 당신이 언급 한 제로 중심이 아닌 문제를 해결합니다.

UPD : ReLu 출력은 실제로 제로 중심이 아니며 NN 성능을 저하시킵니다. 그러나이 특별한 문제는 다른 정규화 기법, 예를 들어 batchnorm,에 의해 부딪히는 수 있습니다 활성화하기 전에 신호를 정규화 :

정규화하여 비선형 성 직전에 BN 변환을 추가합니다 . ... 정규화하면 안정적인 분포로 활성화가 생성 될 수 있습니다.x=Wu+b


1
나는이 부분을 강조해야했다. ReLu만으로는이 문제를 해결할 수 없다고 말하려고했다. 가중치가 정규화 되지 않으면 ReLu 출력의 중심이 0이 아니고 NN 성능이 저하 될 수 있습니다. 그러나 포화 그라디언트는 NN을 훨씬 더 손상 시켰으므로 ReLu의 대량 채택은 단점에도 불구하고 한 단계 발전했습니다.
Maxim

체중이 정규화되었다는 것이 무엇을 의미합니까? 답과 강조한 것에
Media

이 특정 문제에 대한 세부 정보로 답변을 업데이트했습니다.
Maxim

내가 조금 혼란스럽게 생각하는 이유는 무엇입니까? 단지 정체성 기능을 사용하지 않습니까? neg 값에 대해 0의 장점은 무엇입니까?
Alex

@Alex id는 비선형이 아닙니다. NN에 선형 레이어 만있는 것과 같습니다. 이 질문을 참조하십시오 - stackoverflow.com/q/46659525/712995
맥심
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.