ReLU vs Leaky ReLU 및 Parametric ReLU의 장점은 무엇입니까?


10

ReLU 대신 Leaky ReLU를 사용하는 이점은 이런 방식으로 사라지는 그라디언트를 가질 수 없다는 것입니다. 파라 메트릭 ReLU는 네가티브 입력에 대한 출력의 기울기가 학습 가능한 매개 변수 인 반면, Leaky ReLU에서는 하이퍼 파라미터라는 유일한 차이점과 동일한 장점이 있습니다.

그러나 Leaky ReLU 또는 Parametric ReLU 대신 ReLU를 사용하는 것이 더 편리한 경우가 있는지 알 수 없습니다.

답변:


7

하이퍼 파라미터 화 된 1 개의 누수 변형 인 ReLU 와 학습 중 동적 파라미터가있는 변형을 결합하면 다음 두 가지가 혼동됩니다.

  • 누설이 많은 변형과 ReLU 간의 비교는 포화를 피하기 위해 현재의 ML 사례가 필요한지 여부와 밀접한 관련이 있습니다. 채도는 제로 기울기 2에 대한 신호 손실 또는 디지털로 인해 발생하는 혼란스러운 잡음의 우세입니다. 반올림 3 .
  • 훈련 동적 활성화 (호출의 비교 파라미터 문헌) 및 훈련 정전기 활성화는 활성화 비선형 비 매끄러운 특성 값의 수렴 속도 관련 여부에 기초해야 4 .

ReLU가 파라 메트릭이 아닌 이유는이를 중복시키는 것이기 때문입니다. 음의 도메인에서는 상수 0입니다. 음이 아닌 도메인에서 그 파생물은 일정합니다. 활성화 입력 벡터가 이미 벡터 매트릭스 제품 (매트릭스, 큐브 또는 하이퍼 큐브에 감쇠 매개 변수가 포함되어 있음)을 사용하여 감쇠되었으므로, 음이 아닌 도메인에 대한 상수 미분 값을 변경하는 매개 변수를 추가하는 데 유용한 목적은 없습니다 .

활성화에 곡률이있는 경우 모든 활성화 계수가 매개 변수로 중복되는 것은 더 이상 사실이 아닙니다. 이들의 가치는 훈련 과정과 수렴의 속도와 신뢰성을 상당히 변화시킬 수 있습니다.

실질적으로 딥 네트워크의 경우 중복성이 다시 나타나며, 이론과 실무 모두에 대한 증거가 있습니다.

  • 대수적 용어로, ReLU와 그로부터 파생 된 파라 메트릭 동적 활성화 사이의 차이는 깊이 (계층 수)가 무한대에 접근함에 따라 0에 근접합니다.
  • 설명적인 측면에서 ReLU는 충분한 수의 레이어가 주어진 경우 곡률 5를 사용 하여 함수를 정확하게 근사 할 수 있습니다 .

이것이 더 얕은 네트워크에 대해 위에서 언급 한 채도 문제를 방지하는 데 유리한 ELU 종류가 더 깊은 네트워크에 사용되지 않는 이유입니다.

따라서 두 가지를 결정해야합니다.

  • 파라 메트릭 활성화가 유용한 지 여부는 종종 통계 모집단의 여러 샘플을 사용한 실험을 기반으로합니다. 그러나 층 깊이가 높은 경우에는 전혀 실험 할 필요가 없습니다.
  • 누출 변종이 가치가 있는지 여부는 역 전파 동안 발생하는 숫자 범위와 관련이 있습니다. 트레이닝 중 임의의 시점에서 역 전파 동안 구배가 사라지는 경우, 활성화 곡선의 일정한 부분이 문제가 될 수있다. 이러한 경우에, 0이 아닌 2 개의 경사면을 갖는 매끄러운 기능 또는 누출 RelU 중 하나가 적절한 해결책을 제공 할 수있다.

요약하면, 선택은 결코 편리한 선택이 아닙니다.


각주

[1] 하이퍼 파라미터는 해당 레이어에 대한 입력 감쇠의 일부가 아닌 레이어를 통한 신호에 영향을 미치는 파라미터입니다. 감쇠 가중치는 매개 변수입니다. 다른 모든 매개 변수화는 하이퍼 매개 변수 세트에 있습니다. 여기에는 학습 속도, 역 전파의 고주파 감쇠, 전체 네트워크가 아닌 경우 전체 계층에 대해 설정된 다양한 기타 학습 제어가 포함될 수 있습니다.

[2] 그래디언트가 0이면 조정 방향을 알 수 없으므로 매개 변수를 지능적으로 조정할 수 없으며 크기는 0이어야합니다. 학습이 중단됩니다.

[3] CPU가 매우 작은 값을 가장 가까운 디지털 표현으로 반올림 할 때 발생할 수있는 혼란스러운 노이즈가 레이어로 다시 전파되도록하는 보정 신호를 지배하면 보정이 말이되지 않고 학습이 중지됩니다.

수렴 률은 학습 결과 (시스템 거동)가 충분히 좋은 것으로 접근하는 속도 (마이크로 초 또는 알고리즘의 반복 인덱스에 대한 상대적인 속도)를 측정 한 것입니다. 그것은 일반적으로 수렴 (학습)에 대한 공식적인 수용 기준에 근접한 것입니다.

[5] 곡률 기능은 직선 또는 평면으로 보이지 않는 기능입니다. 포물선에는 곡률이 있습니다. 직선은 그렇지 않습니다. 계란의 표면에는 곡률이 있습니다. 완벽한 평면은 그렇지 않습니다. 수학적으로 함수의 Hessian 요소가 0이 아닌 경우 함수는 곡률을 갖습니다.


당신은 무엇을 의미합니까 선택 편의의 선택이 결코 ?
gvgramazio

@gvgramazio, 귀하는 귀하의 질문에 "ReLU를 사용하는 것이 더 편리합니다"라고 작성했습니다. 편의가 선택의 기초가 아님을 나타 냈습니다. 아마도 너무 가혹한가? 나는 의도하지 않았다. 내 대답에서 그 문장 위의 문장은 활성화 기능을 선택할 때 결정을 내릴 수있는보다 유용한 기준을 제공하기위한 것입니다.
FauChristian

나에게 문제가 아닌 너무 가혹한 것에 대해 걱정하지 마십시오. 나는 그것이 언어의 문제라고 생각합니다 (나는 영어 원어민이 아닙니다).
gvgramazio

사실, 내가 이해 한 바에 따르면 어떤 경우에 다른 변형에 대해 하나의 변형을 선호 해야하는지 잘 설명합니다. 내가 아직도 이해하지 못하는 것은 고전적인 것을 선호해야 할 때입니다. 예를 들어 누출이있는 변형은 그래디언트를 없애는 데 적합한 솔루션을 제공 할 수 있지만, 단점이 없다면 ReLU와 관련하여 항상 누출이있는 변형을 선택할 수 있습니다.
gvgramazio

@FauChristian 좀 더 구어체 용어와 직관을 추가 할 수 있습니까, 나는 수학 언어에 익숙하지 않습니다 :)
DuttaA
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.