비선형 성의 최첨단 기술은 심층 신경망에서 시그 모이 드 기능 대신 정류 선형 단위 (ReLU)를 사용하는 것입니다. 장점은 무엇입니까?
ReLU를 사용할 때 네트워크를 훈련하는 것이 더 빠르며 생물학적으로 더 영감을 받는다는 것을 알고 있습니다. 다른 장점은 무엇입니까? (즉, S 자형을 사용하면 어떤 단점이 있습니까?)
비선형 성의 최첨단 기술은 심층 신경망에서 시그 모이 드 기능 대신 정류 선형 단위 (ReLU)를 사용하는 것입니다. 장점은 무엇입니까?
ReLU를 사용할 때 네트워크를 훈련하는 것이 더 빠르며 생물학적으로 더 영감을 받는다는 것을 알고 있습니다. 다른 장점은 무엇입니까? (즉, S 자형을 사용하면 어떤 단점이 있습니까?)
답변:
ReLU의 두 가지 주요 이점은 희소성 및 소실 구배 가능성 감소입니다. 그러나 먼저 ReLU의 정의는 이며 여기서 입니다.
한 가지 주요 이점은 그래디언트가 사라질 가능성이 줄어든다는 것입니다. 때 발생합니다 . 이 영역에서 기울기는 일정한 값을 갖습니다. 대조적으로, x의 절대 값이 증가함에 따라 시그 모이 드의 기울기가 점점 작아진다. ReLU의 일정한 기울기는 학습 속도를 높입니다.
ReLU의 또 다른 이점은 희소성입니다. 희소성은 때 발생합니다 . 레이어에 이러한 단위가 많을수록 결과 표현이 더 희박합니다. 반면에 S 자형은 항상 0이 아닌 값을 생성하여 밀도가 높은 표현을 생성합니다. 희소 표현은 밀도가 높은 표현보다 유리한 것으로 보입니다.
이점:
불리:
S 자형 : 기울기를 소멸시키는 경향이 있습니다 (그라데이션을 " "증가 로 감소시키는 메커니즘이 있기 때문에 , 여기서 " "는 S 자형 함수의 입력입니다. S 자형의 그라디언트 : . "경우 "큰 무한 성장하여, ).
Relu은 : 활성화 날려 경향이있다 (신경 세포의 출력을 제한하는 메커니즘이 없기를 "로 "자체가 출력됩니다)
$x$
생성) Latex에서 수학 조판을 사용할 수 있다면 도움이 될 것입니다 .
다른 답변을 보완하기 만하면됩니다.
사라지는 그라디언트
다른 답변은 입력이 (절대 값으로) 클수록 시그 모이 드 함수의 기울기가 더 작음을 지적하는 것이 옳습니다. 그러나 아마도 더 중요한 효과는 S 자형 함수의 도함수가 항상 1보다 작다는 것 입니다. 실제로 최대 0.25입니다!
이것의 단점은 많은 레이어가있는 경우 이러한 그라디언트를 곱하고 1보다 작은 값의 곱은 매우 빠르게 0이된다는 것입니다.
딥 러닝의 최신 기술은 더 많은 레이어가 많은 도움이된다는 것을 보여 주었으므로 Sigmoid 기능의 이러한 단점은 게임 킬러입니다. Sigmoid로는 딥 러닝을 할 수 없습니다.
반면에 ReLu 함수의 기울기 중 하나이고 용 또는 대 . 즉, 그라디언트를 곱하면 사라지거나 분해되지 않기 때문에 원하는만큼 레이어를 배치 할 수 있습니다.
사라지는 그라디언트 문제를 피하는 것 이외의 ReLU의 장점은 실행 시간이 훨씬 짧다는 것입니다. max (0, a)는 모든 시그 모이 드 함수 (예 : 로지스틱 함수 (예 : 1 / (1 + e ^ (-a))보다 훨씬 빠름)로 자주 수행 될 때 계산 속도가 느립니다. ReLU의 구배 (a <0, = 0 else = 1 인 경우)도 시그 모이 드 (로지스틱 곡선 = e ^ a / ((1 + e의 경우) ^ a) ^ 2)).
ReLU는 네트워크 용량을 제한하는 셀을 죽이는 단점이 있습니다. 이 문제를 해결하려면 위에서 설명한 문제가 발견되면 누출 ReLU, ELU 등과 같은 ReLU 변형을 사용하십시오.