4
직선 활성화 기능은 신경망에서 사라지는 기울기 문제를 어떻게 해결합니까?
신경 네트워크 의 배니싱 그래디언트 문제에 대한 해결책으로 여러 곳에서 정류 선형 유닛 (ReLU)이 칭찬했습니다 . 즉, max (0, x)를 활성화 함수로 사용합니다. 활성화가 양성일 때, 이것은 시그 모이 드 활성화 기능보다 낫다는 것이 명백하다. 그 파생은 큰 x에 대해 임의적으로 작은 값 대신에 항상 1이기 때문이다. 반면에, x가 0보다 …