심층 신경망에서 시그 모이 드 기능에 비해 ReLU의 장점은 무엇입니까?


141

비선형 성의 최첨단 기술은 심층 신경망에서 시그 모이 드 기능 대신 정류 선형 단위 (ReLU)를 사용하는 것입니다. 장점은 무엇입니까?

ReLU를 사용할 때 네트워크를 훈련하는 것이 더 빠르며 생물학적으로 더 영감을 받는다는 것을 알고 있습니다. 다른 장점은 무엇입니까? (즉, S 자형을 사용하면 어떤 단점이 있습니까?)


귀하의 네트워크에 비선형 성을 허용하는 것이 유리하다는 인상을 받았습니다. 하지만 ... 아래의 답변 중 하나에이 표시되지 않습니다
모니카 Heddneck에게

2
@MonicaHeddneck ReLU와 S 자형은 모두 비선형입니다 ...
Antoine

답변:


130

ReLU의 두 가지 주요 이점은 희소성 및 소실 구배 가능성 감소입니다. 그러나 먼저 ReLU의 정의는 이며 여기서 입니다.h=max(0,a)a=Wx+b

한 가지 주요 이점은 그래디언트가 사라질 가능성이 줄어든다는 것입니다. 때 발생합니다 . 이 영역에서 기울기는 일정한 값을 갖습니다. 대조적으로, x의 절대 값이 증가함에 따라 시그 모이 드의 기울기가 점점 작아진다. ReLU의 일정한 기울기는 학습 속도를 높입니다.a>0

ReLU의 또 다른 이점은 희소성입니다. 희소성은 때 발생합니다 . 레이어에 이러한 단위가 많을수록 결과 표현이 더 희박합니다. 반면에 S 자형은 항상 0이 아닌 값을 생성하여 밀도가 높은 표현을 생성합니다. 희소 표현은 밀도가 높은 표현보다 유리한 것으로 보입니다.a0


2
기울기를 말할 때 가중치 또는 입력 x와 관련이 있습니까? @DaemonMaker
MAS

4
무게와 관련하여. 그라디언트 기반 학습 알고리즘은 항상 학습자의 매개 변수, 즉 NN의 가중치 및 바이어스와 관련하여 그라디언트를 사용합니다.
DaemonMaker

2
"밀도"및 "스파 스" "표현"은 무엇을 의미합니까? 구글에 대한 "구문 표현 신경 네트워크"에 대한 쿼리는 관련이없는 것으로 보입니다.
Hi-Angel

6
"희소 한 표현은 밀도가 높은 표현보다 더 유리한 것 같습니다." 출처 나 설명을 제공해 주시겠습니까?
Rohan Saxena

1
이 답변이 어떻게 올바른지 이해하지 못합니다. "그라데이션이 사라질 가능성이 줄어든다"는 원하는 것을 남긴다. ReLu는 충분히 작은 위한 ZERO입니다 . 학습하는 동안이 정권에있을 때 특정 뉴런에 대해 그라디언트가 사라집니다. 실제로는 피할 수 없습니다. 그렇지 않으면 네트워크가 선형이기 때문입니다. 배치 정규화는 이것을 주로 해결합니다. 여기에는 ReLu와 그레디언트라는 가장 중요한 이유도 언급되어 있지 않습니다. S 자형에 비해 계산 속도가 매우 빠릅니다. x
Alex R.

65

이점:

  • S 자형 : 활성화하지 않음
  • Relu : 그라디언트 사라지지 않음
  • Relu : Regm은 최대 (0, ) 를 선택 하고 Sigmoids와 같이 비싼 지수 연산을 수행하지 않기 때문에 Sigmoid와 같은 함수보다 계산에 더 효율적입니다.x
  • Relu : 실제로 Relu가있는 네트워크는 S 자형보다 수렴 성능이 더 우수한 경향이 있습니다. ( Krizhevsky et al. )

불리:

  • S 자형 : 기울기를 소멸시키는 경향이 있습니다 (그라데이션을 " "증가 로 감소시키는 메커니즘이 있기 때문에 , 여기서 " "는 S 자형 함수의 입력입니다. S 자형의 그라디언트 : . "경우 "큰 무한 성장하여, ).aaS(a)=S(a)(1S(a))aS(a)=S(a)(1S(a))=1×(11)=0

  • Relu은 : 활성화 날려 경향이있다 (신경 세포의 출력을 제한하는 메커니즘이 없기를 "로 "자체가 출력됩니다)a

  • Relu : 죽어가는 Relu 문제-너무 많은 활성화가 0 미만으로 떨어지면 Relu와 네트워크의 대부분의 단위 (뉴런)는 단순히 0을 출력합니다. 즉, 죽어서 학습을 금지합니다. 대신 Leaky-Relu를 사용합니다.)

7
방정식 주위에 달러 기호를 넣어 (예 :$x$ 생성) Latex에서 수학 조판을 사용할 수 있다면 도움이 될 것입니다 . x
Silverfish

Relu : 그래디언트가 사라지지 않습니다. 응? 모든 대해 . Relu(ax+b)=0x<b/a
Alex R.

40

다른 답변을 보완하기 만하면됩니다.

사라지는 그라디언트

다른 답변은 입력이 (절대 값으로) 클수록 시그 모이 드 함수의 기울기가 더 작음을 지적하는 것이 옳습니다. 그러나 아마도 더 중요한 효과는 S 자형 함수의 도함수가 항상 1보다 작다는 것 입니다. 실제로 최대 0.25입니다!

이것의 단점은 많은 레이어가있는 경우 이러한 그라디언트를 곱하고 1보다 작은 값의 곱은 매우 빠르게 0이된다는 것입니다.

딥 러닝의 최신 기술은 더 많은 레이어가 많은 도움이된다는 것을 보여 주었으므로 Sigmoid 기능의 이러한 단점은 게임 킬러입니다. Sigmoid로는 딥 러닝을 할 수 없습니다.

반면에 ReLu 함수의 기울기 중 하나이고 용 또는 대 . 즉, 그라디언트를 곱하면 사라지거나 분해되지 않기 때문에 원하는만큼 레이어를 배치 할 수 있습니다.0a<01a>0


10
이것이 내가 찾던 대답입니다. 사람들이 "배니싱 그라디언트"에 대해 이야기 할 때 "ReLu의 그라디언트가 범위의 절반에 대해 정확히 0입니다. 궁금하지 않습니다." 그라디언트가 여러 레이어에 곱해 짐을 상기시켜 문제를 설명하는 방식이 훨씬 명확 해집니다.
보리스 Gorelik

3
@ guilherme-de-lazari는 마지막 줄에서 수정을 제안했습니다-relu의 값은 a> 0에 대한 것이지만 a> 0에 대한 1 인 기울기에 대해 이야기하고 있습니다
saurabh

4
이것이 주된 이유라면, 시그 모이 드를 1 / (1 + exp (-4x))로 재조정 할 수 없었습니까? 그런 다음 미분 값은 최대 1입니다 (또는 1보다 높거나 낮은 옵션을 제공하기 위해 훨씬 더 스케일 조정). 리 스케일링은 도함수가 0과 구별 될 수있는 영역을 감소시키기 때문에 이것이 훨씬 더 나빠질 것이라고 생각합니다.
피터

5
이 대답은 말도 안됩니다. 상수 매개 변수 1을 갖는 시그 모이 드의 미분은 1보다 작습니다. 그러나 더 일반적으로 이며 임의로 큰 미분을 가질 수 있습니다 ( 실제로 를 가져 가면 시그 모이 드 빠르게 0에서 1로 간다). 1/(1+exp(ax))a
Alex R.

7
또한 시그 모이 드로 딥 러닝을 수행 할 수 있습니다. 예를 들어 배치 정규화를 통해 입력을 정규화하면됩니다. 이것은 시그 모이 드의 포화를 피하기 위해 입력을 집중시킵니다. 배치 정규화에 관한 원본 논문에서, 시그 모이 드 활성화 신경망은 ReLus와 거의 비슷한 수준입니다 : arxiv.org/pdf/1502.03167.pdf
Alex R.

7

사라지는 그라디언트 문제를 피하는 것 이외의 ReLU의 장점은 실행 시간이 훨씬 짧다는 것입니다. max (0, a)는 모든 시그 모이 드 함수 (예 : 로지스틱 함수 (예 : 1 / (1 + e ^ (-a))보다 훨씬 빠름)로 자주 수행 될 때 계산 속도가 느립니다. ReLU의 구배 (a <0, = 0 else = 1 인 경우)도 시그 모이 드 (로지스틱 곡선 = e ^ a / ((1 + e의 경우) ^ a) ^ 2)).

ReLU는 네트워크 용량을 제한하는 셀을 죽이는 단점이 있습니다. 이 문제를 해결하려면 위에서 설명한 문제가 발견되면 누출 ReLU, ELU 등과 같은 ReLU 변형을 사용하십시오.


1
+1. 이것은 유일한 정답 중 하나입니다. 배치 정규화를 사용하여 입력을 중앙 집중화하여 죽은 뉴런을 방지 할 수 있습니다.
Alex R.

2

Sparse vs Dense 성능 토론 에서 완성 할 추가 답변 .

순방향 및 역방향 전파는 일련의 행렬 연산이므로 더 이상 NN을 생각하지 말고 선형 대수 및 행렬 연산을 생각하십시오.

희소 행렬에 적용 할 최적화 된 연산자가 많이 있으므로 네트워크에서 이러한 작업을 최적화하면 알고리즘의 성능을 크게 향상시킬 수 있습니다.

나는 그것이 당신들 중 일부를 도울 수 있기를 바랍니다 ...


1

주요 이점은 ReLu의 미분 값이 0 또는 1이므로이 값에 곱하면 손실 함수의 최종 결과에서 더 멀리 떨어진 가중치가 사라지는 기울기 문제를 겪지 않게됩니다.

여기에 이미지 설명을 입력하십시오

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.