직선 활성화 기능은 신경망에서 사라지는 기울기 문제를 어떻게 해결합니까?


40

신경 네트워크 의 배니싱 그래디언트 문제에 대한 해결책으로 여러 곳에서 정류 선형 유닛 (ReLU)이 칭찬했습니다 . 즉, max (0, x)를 활성화 함수로 사용합니다. 활성화가 양성일 때, 이것은 시그 모이 드 활성화 기능보다 낫다는 것이 명백하다. 그 파생은 큰 x에 대해 임의적으로 작은 값 대신에 항상 1이기 때문이다. 반면에, x가 0보다 작을 때 파생은 정확히 0입니다. 최악의 경우, 장치가 활성화되지 않으면이 장치의 무게도 더 이상 변하지 않으며 장치는 영원히 쓸모가 없습니다. 아주 작은 그래디언트보다 훨씬 나쁩니다. ReLU를 사용할 때 학습 알고리즘이 해당 문제를 어떻게 처리합니까?


2
최악의 경우는 죽어가는 ReLU
Martin Thoma

아이디어는 로지스틱 함수의 경우 그라디언트가 임의로 작아 질 수 있기 때문에 몇 가지 "무시할 수있는"물류를 구성 하여 수치 적으로 사라지는 그라디언트를 얻을 수 있다고 생각합니다 . 램프 기능의 경우, 기울기가
부분적으로 일정하기 때문에

(이것이 "영구적"인지 확실하지 않습니까? 더 많은 교육을받은 후에도 0이 아닐 수 없습니까? 다른 노드 및 / 또는 현재 데이터 미니 배치에 대한 종속성에서? (확률 그라디언트 하강의 경우)
GeoMatt22

답변:


33

다음은 문제를 설명 하는 논문 입니다. 문제를 분명히하기 위해 일부를 인용하고 있습니다.

정류기 활성화 기능을 통해 네트워크는 희소 표현을 쉽게 얻을 수 있습니다. 예를 들어, 가중치를 균일하게 초기화 한 후 숨겨진 단위 연속 출력 값의 약 50 %가 실제 0이며,이 비율은 희소성을 유발하는 정규화로 쉽게 증가 할 수 있습니다.

따라서 정류기 활성화 기능은 네트워크에 희소성 효과를 가져옵니다. 같은 논문에서 희소성의 장점은 다음과 같습니다.

  • 정보 분리 . 딥 러닝 알고리즘 (Bengio, 2009)의 목표 중 하나는 데이터의 변화를 설명하는 요소를 분리하는 것입니다. 입력의 거의 모든 변경이 표현 벡터의 대부분의 항목을 수정하기 때문에 밀도가 높은 표현이 얽혀 있습니다. 대신 표현이 작은 입력 변경에 대해 희박하고 강력한 경우 0이 아닌 기능 세트는 거의 입력의 작은 변경으로 거의 보존됩니다.

  • 효율적인 가변 크기 표현 . 상이한 입력은 상이한 양의 정보를 포함 할 수 있고, 정보의 컴퓨터 표현에서 공통적 인 가변 크기 데이터 구조를 사용하여보다 편리하게 표현 될 수있다. 활성 뉴런의 수를 변경하면 모델이 주어진 입력과 필요한 정밀도에 대한 표현의 효과적인 차원을 제어 할 수 있습니다.

  • 선형 분리 성 . 스파 스 표현은 단순히 정보가 고차원 공간으로 표현되기 때문에 덜 비선형 기계를 사용하여 선형으로 분리 가능하거나 쉽게 분리 할 수 ​​있습니다. 게다가 이것은 원래 데이터 형식을 반영 할 수 있습니다. 예를 들어 텍스트 관련 응용 프로그램에서 원본 원시 데이터는 이미 매우 희박합니다.

  • 분산하지만, 스파 스 . 밀도가 높은 분산 표현은 가장 풍부한 표현으로, 순전히 로컬 표현보다 기하 급수적으로 더 효율적입니다 (Bengio, 2009). 희소 표현의 효율성은 지수 적으로 강력하며 지수의 힘은 0이 아닌 피처의 수입니다. 위의 기준과 관련하여 좋은 트레이드 오프를 나타낼 수 있습니다.

또한 귀하가 요청한 질문에 대한 답변을 제공합니다.

softplus(x)=log(1+ex)(Dugas et al., 2001), 정류 비선형 성의 매끄러운 버전. 우리는 정확한 희소성을 잃지 만 더 쉬운 훈련을 원할 수 있습니다. 그러나 실험 결과는 가설과 모순되는 경향이 있으며, 하드 제로가 실제로 감독 훈련에 도움이 될 수 있음을 시사합니다. 그라디언트가 일부 경로를 따라 전파 될 수있는 한 (즉, 각 레이어의 일부 숨겨진 단위가 0이 아닌 경우) 하드 비선형 성이 손상되지 않는다는 가설을 세웁니다. 더 균등하게, 우리는 최적화가 더 쉽다는 가설을 세웁니다.

자세한 내용 은 논문 을 읽을 수 있습니다 .


18

그렇기 때문에 PReLU, ELU 또는 기타 누출 된 ReLU 유사 활성화를 사용하는 것이 더 좋은 아이디어 일 것입니다. 0으로 돌아 가지 않고 x가 학습을 계속하기 위해 음수가되면 0.1 * x와 같이 떨어집니다. ReLUs가 시그 모이 드와 같은 역사 인 것은 오랫동안 나에게 보였지만 어떤 이유로 사람들은 여전히 ​​이것으로 논문을 출판합니다. 왜? 모르겠어요

Dmytro Mishkin과 다른 사람들은 실제로 다양한 활성화 유형으로 네트워크를 테스트했습니다. 다른 활성화 기능 및 기타 항목의 성능에 대한 조사 결과를 조사 해야합니다. 그러나 XOR과 같은 일부 기능은 일반 ReLU를 통해 더 잘 학습됩니다. 신경망은 진행중인 작업이 많기 때문에 교리 적 용어로 신경을 생각하지 마십시오. 세상의 어느 누구도 신성한 진리를 말할만큼 충분히 그들을 알고 이해하지 못합니다. 아무도 사물을 시험 해보고 직접 발견하십시오. ReLU 자체를 사용하는 것은 매우 최근의 개발이며 수십 년 동안 해당 분야의 모든 다른 박사 학위 담당자는 이제 우리가 웃을 수있는 지나치게 복잡한 활성화 기능을 사용했습니다. 너무 자주 "알고"나쁜 결과를 얻을 수 있습니다. 신경망은 정확한 과학이 아니라는 것을 이해하는 것이 중요합니다. 수학에서는 신경망이 실제로는 정상적으로 작동한다고 말합니다. 휴리스틱입니다. 그리고 그것은 매우 가단성입니다.

참고로 절대 값 활성화조차도 XOR와 같은 문제와 같은 일부 문제에서 좋은 결과를 얻습니다. 다른 활성화 기능은 다른 목적에 더 적합합니다. abs ()를 사용하여 Cifar-10을 시도했는데 성능이 떨어지는 것 같습니다. 예를 들어 사전 초기화가 최적인지 등이 확실하지 않기 때문에 "시각 인식을위한 더 나쁜 활성화 기능"이라고 말할 수는 없습니다. 상대적으로 배우고 있다는 사실은 잘 놀랐습니다.

또한 실제로는 백프로 프에 전달하는 "유도체"가 실제 수학적 파생물과 반드시 ​​일치 할 필요는 없습니다.

예를 들어 "파생 제"라고 부르지 말고 다른 것을 부르기 시작해야 할 정도로 말입니다. error activation functions그들과 함께 땜질의 가능성에 우리의 마음을 닫지 않습니다. 예를 들어 실제로 ReLU 활성화를 사용할 수 있지만 x <0의 파생물로 0 대신 0.1 또는 이와 유사한 것을 제공 할 수 있습니다. 어떤 식 으로든, 당신은 평범한 ReLU를 가지게되지만, 뉴런은 "적응성이 없어 질 수 없습니다". 저는 이것을 NecroRelu라고 부릅니다. 왜냐하면 그것은 죽을 수없는 ReLU이기 때문입니다. 그리고 어떤 경우에는 (거의 대부분은 아니지만) 일반 LeakyReLU보다 더 효과적이며, 실제로 x <0에서 0.1 미분을 가지며 일반적인 ReLU보다 낫습니다. 나는 너무 많은 다른 사람들이 그러한 기능을 조사했다고 생각하지는 않지만, 이것 또는 이와 비슷한 것이 실제로 수학에 너무 집중되어 있기 때문에 아무도 고려하지 않은 일반적으로 멋진 활성화 기능 일 수 있습니다.

일반적으로 사용되는 것과 관련하여 tanH (x) 활성화 함수의 경우 일을 더 빨리 계산하기 위해 1-tanH (x) ² 대신 1-xH² 대신 미분을 전달하는 것이 일반적입니다.

또한 ReLU가 예를 들어 TanH보다 "분명히 낫다"는 것은 아닙니다. 경우에 따라 TanH가 더 나을 수 있습니다. 시각적 인 인식이 아닌 것 같습니다. 예를 들어, ELU에는 약간의 시그 모이 드 부드러움이 있으며 현재 시각 인식을 위해 가장 잘 알려진 활성화 기능 중 하나입니다. 실제로 시도하지는 않았지만 동일한 레이어 수준에서 다른 활성화 기능을 가진 여러 그룹을 유리하게 설정할 수 있습니다. 서로 다른 논리는 다른 활성화 기능으로 더 잘 설명되기 때문입니다. 때로는 여러 유형의 평가가 필요할 수도 있습니다.

활성화 기능의 유형에 해당하는 초기화가 중요합니다. 예를 들어 새는 ReLU에는 일반 ReLU와 같은 다른 초기화가 필요합니다.

편집 : 실제로 표준 ReLU는 최신 아키텍처를 사용하는 누출에 비해 과적 합하는 경향이 적습니다. 적어도 이미지 인식에서. 엄청난 양의 매개 변수로 매우 높은 정확도를 얻으려면 일반 ReLU 대 누출 옵션을 사용하는 것이 좋습니다. 그러나 물론이 모든 것을 직접 테스트하십시오. 더 많은 정규화가 주어지면 누출 된 물건이 더 잘 작동 할 수 있습니다.


NecroReLU에 관심이 있지만 LeakyReLU와 어떻게 다른지 쓴 내용에서 얻을 수 없습니다. 당신은 명확히 할 수 있습니까?
Tom Hale

활성화가 ReLU라는 점에서 다릅니다. 그러나 파생 상품은 LReLU
Íhor Mé

@ ÍhorMé는 게시물 initialization that corresponds to a type of activation function one is using에서 에 대해 언급했듯이 동일한 줄에 NOTE제안 제공 할 수 있습니까? sigmoid / tanH를 통해 ReLu 활성화를 사용하는 것이 사라지는 / 폭발적인 그라디언트 문제에 대한 해결책이라고 완전히 확신하지 못합니다. .
anu

16

휴리스틱 설명은 다음과 같습니다.

  • 백프로 프의 각 그라디언트 업데이트는 여러 곱한 요소로 구성됩니다.
  • 네트워크가 시작 될수록 더 많은 요소들이 더해져 그라디언트 업데이트를 얻습니다.
  • 이러한 요소 중 다수는 뉴런의 활성화 기능의 파생물입니다. 나머지는 가중치, 바이어스 등입니다.
  • 이러한 요소 중 직관적으로 중요한 요소는 가중치, 바이어스 등입니다. 활성화 함수 파생물은 올바른 종류의 속도에서 올바른 방향으로 기울기 강하를 가져 오도록 설계된 일종의 튜닝 매개 변수입니다.
  • 1보다 작은 항을 곱하면 항이 많을수록 0을 향하는 경향이 있습니다. 따라서 기울기가 <1 인 활성화 함수가있는 경우 출력 레이어에서 멀어지면 그라디언트가 사라집니다.
  • 1보다 큰 항을 곱하면 무한대로 향하는 경향이 있으므로 기울기가 1보다 큰 활성화 함수가있는 경우 출력 레이어에서 멀어 질수록 기울기가 폭발적으로 증가합니다.
  • 어쨌든 마술처럼 활성화 함수의 미분에 의해 이러한 용어가 기여할 수 있다면 어떨까요? 이것은 직관적으로 그래디언트 업데이트에 대한 모든 기여는 입력에서 문제와 모델, 즉 가중치, 입력, 바이어스-선택된 활성화 기능의 일부 인공물보다는.
  • RELU는 출력> 0이면 기울기 1을, 그렇지 않으면 0을 갖습니다.
  • 따라서 백프로 프 방정식에 여러 RELU 파생물을 곱하면 1 또는 0의 좋은 특성을 갖습니다. 업데이트는 아무것도 아니거나 다른 가중치와 바이어스에서 완전히 기여합니다.

x <0 일 때 평탄화하는 대신 선형 함수를 사용하는 것이 더 낫다고 생각할 수 있습니다. 여기서 아이디어는 RELU가 상대적으로 적은 수의 유용한 링크로 스파 스 네트워크를 생성하여 생물학적 타당성이 높기 때문에 많은 가중치가 실제로 도움이됩니다. 또한 신경망을 이용한 흥미로운 기능의 시뮬레이션은 활성화 기능의 일부 비선형 성에서만 가능합니다. 선형 활성화 함수는 선형 출력을 생성하는데 전혀 흥미롭지 않습니다.


훌륭한 설명, 6 번째 포인트에서 더 자세히 설명해 주시겠습니까? 또한 동일한 라인에서 이에 대한 제안 제공해 주 시겠습니까? sigmoid / tanH에서 ReLu 활성화를 사용하는 것이 사라지는 / 폭발적인 그래디언트 문제에 대한 해결책이라고 완전히 확신하지는 못합니다.
anu

1
합리적인 무게 초기화도 중요합니다. 그러나 활성화 기능의 선택도 마찬가지입니다. 사소한 예로서, 모든 체중이 0으로 기본 설정되고 RELU를 사용하면 뉴런의 모든 출력은 0으로 유지됩니다. RELU 만 또는 초기화 기술만으로는 사라지는 / 폭발 구배를 완전히 해결할 수는 없지만 모두 도움이됩니다. 6 번 지점에서 정교화를 의미하는 것이 무엇인지 확실하지 않은 이유는 무엇입니까?
톰 워커

1

에러 신호의 역 전파를 정의하는 주요 재발 관계를 고려해 보자.

Wibiif

hii

si=Wi(hi1)+bi

hi=f(si)

δi

δi=Wi+1(δi+1f(si))

ff(si)=(1hi2)hi

f=Relu=max(0,x)ff=numpy.where(hi>0,1,0)

이 방정식은 또한 활성화-사멸 뉴런에 대한 다른 문제 특성을 보여줍니다. 주어진 뉴런이 입력에 대해 실행되지 않는 방식으로 초기화 된 경우 (활성화가 0 임) 그래디언트도 0이됩니다. 따라서 절대 활성화되지 않습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.