Relu는 정의에 따라 0 그라디언트를 가지고 있는데 왜 그라디언트 소멸이 x <0에 문제가되지 않습니까?

10

정의상 Relu는 max(0,f(x))입니다. 그런 다음 그라디언트는 다음과 같이 정의됩니다 1 if x > 0 and 0 if x < 0.

x <0 일 때 그래디언트가 항상 0 (사라짐)을 의미하지 않습니까? 그렇다면 왜 Relu가 기울기 소멸 문제로 고통받지 않는다고 말합니까?

deep-learning

— 완두콩
소스

5

당신은 대부분 맞습니다! ReLU는 그래디언트 소실에 문제가 있지만 한쪽에만 적용되므로 '죽어가는 ReLU 문제'라고 부릅니다. 자세한 정보는이 스택 오버 플로우 응답을 참조하십시오. 신경망에서 "dying ReLU"문제는 무엇입니까?

작은 의미 차이입니다. 표준 작동 범위를 벗어나면 많은 함수 (tanh 및 로지스틱 / 시그 모이 드)에 미분 값이 거의 0에 가깝습니다. 이것은 '배니싱 그라디언트'문제입니다. 더 나빠질수록 좋은 영역으로 돌아 가기가 더 어려워집니다. ReLU 는 양의 방향으로 멀수록 나 빠지지 않으므로 사라지는 그라디언트 문제가 없습니다. 이 비대칭은 그것을 다른 것으로 부르는 것을 정당화하기에 충분할 수 있지만 아이디어는 매우 유사합니다.

— 조셉 캐 터본
소스

2

추가 가치 : 사라지는 기울기 문제 는 뉴런 전달 함수의 속성이 아니라 네트워크 의 깊이 에 대한 점진적인 변화에 관한 경향이 있습니다 .

— Neil Slater

1

소실은 0을 향하지만 실제로는 0이되지 않음을 의미합니다. 0의 기울기를 가짐으로써 계산이 매우 쉬워집니다. 0에 가까운 기울기를 가짐은 변화가 있음을 의미합니다. 아주 작은 것만으로 학습 속도가 느리고 수치 문제가 있습니다. 1과 0은 이러한 종류의 최적화 문제에서 계산하기 가장 쉬운 두 가지 숫자입니다.

— 얀 반 데르 베 그트
소스