ReLU 함수는 에프( x ) = 최대 ( 0 , x ) .일반적으로 이것은 행렬 벡터 곱과 같은 다른 함수의 출력에 요소별로 적용됩니다. MLP 사용에서 정류기 장치는 아마도 판독 레이어를 제외한 다른 모든 활성화 기능을 대체합니다. 그러나 원하는 경우 혼합하여 사용할 수 있다고 가정합니다.
ReLU가 신경망을 개선하는 한 가지 방법은 훈련 속도를 높이는 것입니다. 그래디언트 계산은 매우 간단합니다 ( 엑스 의 부호에 따라 0 또는 1 ). 또한 ReLU의 계산 단계는 쉽습니다. 모든 음수 요소는 지수, 곱셈 또는 나눗셈 작업이 아닌 0.0으로 설정됩니다.
로지스틱 및 쌍곡 탄젠트 네트워크의 기울기는 ReLU의 양수 부분보다 작습니다. 이는 훈련이 진행됨에 따라 긍정적 인 부분이 더 빠르게 업데이트됨을 의미합니다. 그러나 이것은 비용이 든다. 왼쪽의 0 기울기는 "데드 뉴런"이라고하는 자체 문제가 있는데, 여기서 기울기 업데이트는 들어오는 값을 ReLU로 설정하여 출력이 항상 0이되도록합니다. ELU (또는 Leaky ReLU 또는 PReLU 등)와 같은 수정 된 ReLU 장치는이를 개선 할 수 있습니다.
디디엑스RELU ( x ) = 1 ∀ x > 0 . 대조적으로, 시그 모이 드 유닛의 구배는 최대 이고; 반면, 이후 0에 가까운 영역의 입력에 대해 더 좋습니다 .0.25탄0.25 < d디엑스탄( x ) ≤ 1 ∀ x ∈ [ − 1.31 , 1.31 ]