ReLU가 활성화 기능으로 사용되는 이유는 무엇입니까?


19

활성화 함수는 w * x + b신경망 에서 유형의 선형 출력에 비선형 성을 도입하는 데 사용됩니다 .

나는 sigmoid와 같은 활성화 기능을 직관적으로 이해할 수 있습니다.

나는 역 전파 동안 죽은 뉴런을 피하는 ReLU의 장점을 이해합니다. 그러나 출력이 선형 인 경우 ReLU가 활성화 기능으로 사용되는 이유를 이해할 수 없습니다.

비선형 성을 도입하지 않으면 활성화 함수라는 요점이 완전히 패배되지 않습니까?

답변:


19

수학 에서 도메인 A 의 모든 xy 에 대해 f ( x ) + f ( y ) = f ( x + y ) 속성이있는 경우 함수 마다 함수가 선형으로 간주됩니다 . 정의상 ReLU는 m a x ( 0 , x ) 입니다. 따라서로부터 도메인을 분할하는 경우 ( - , 0 ] 또는 [에프:엑스와이에프(엑스)+에프(와이)=에프(엑스+와이)미디엄엑스(0,엑스)(,0] 이면 함수는 선형입니다. 그러나, 그 쉽게 알 수 F ( - 1 ) + F ( 1 ) F ( 0 ) . 따라서 정의상 ReLU는 선형이 아닙니다. [0,)에프(1)+에프(1)에프(0)

그럼에도 불구하고 ReLU는 선형에 매우 가깝기 때문에 사람들을 혼란스럽게 만들고 보편적 근사법으로 어떻게 사용할 수 있는지 궁금합니다. 내 경험상, 그들에 대해 생각하는 가장 좋은 방법은 리만 합계와 같습니다. 작은 사각형이 많으면 연속 함수에 근접 할 수 있습니다. ReLU 활성화는 많은 작은 사각형을 생성 할 수 있습니다. 실제로, ReLU는 실제로 복잡한 모양을 만들고 많은 복잡한 영역에 근접 할 수 있습니다.

나는 또 다른 요점을 명확히하고 싶다. 이전 답변에서 지적했듯이 뉴런은 Sigmoid에서 죽지 않고 오히려 사라집니다. 그 이유는 시그 모이 드 함수의 미분 값이 최대 0.25이기 때문입니다. 따라서 너무 많은 레이어를 사용한 후에는이 그라디언트를 곱하게되고 1보다 작은 수의 곱은 매우 빠르게 0이되는 경향이 있습니다.

따라서 많은 레이어로 딥 러닝 네트워크를 구축하는 경우 S 자형 함수는 본질적으로 다소 정체되어 다소 쓸모 없게됩니다.

중요한 것은 사라지는 그라디언트 자체가 아닌 그라디언트를 곱하는 것입니다.


6

나는 역 전파 동안 죽은 뉴런을 피하는 ReLU의 장점을 이해합니다.

이것은 사실이 아닙니다. 뉴런은 죽지 않았습니다. S 자형 유사 활성화를 사용하는 경우 일부 반복 후에 대부분의 뉴런에 대해 그래디언트 값이 포화됩니다. 그래디언트의 가치는 너무 작아서 학습 과정은 너무 느리게 진행됩니다. 이것은 시그 모이 드와 같은 활성화 기능을 가진 사라지고 폭발하는 그래디언트입니다. 반대로, 죽어가는 ReLUReLU 라고하는 비선형 성 을 사용하면 죽은 뉴런이 발생할 수 있습니다 .

출력이 선형 인 경우 ReLU가 활성화 함수로 사용되는 이유를 이해할 수 없습니다.

확실히 선형이 아닙니다. 간단한 정의로, 선형 함수는 해당 도메인의 입력에 대해 동일한 미분을 갖는 함수입니다.

선형 기능 은 경제학에서 널리 사용됩니다. 수학적으로 간단하고 다루기 쉽기 때문에 매력적입니다. 많은 중요한 응용 프로그램이 있습니다. 선형 함수는 그래프가 직선 인 함수입니다. 선형 함수의 형식은 다음과 같습니다.

y = f (x) = a + bx

선형 함수에는 하나의 독립 변수와 하나의 종속 변수가 있습니다. 독립 변수는 x이고 종속 변수는 y입니다.

a는 상수 항 또는 y 절편입니다. x = 0 일 때 종속 변수의 값입니다.

b는 독립 변수의 계수입니다. 기울기로도 알려져 있으며 종속 변수의 변화율을 나타냅니다.

ReLU선형이 아닙니다 . 간단한 대답은 ReLU출력이 직선이 아니라 x 축에서 구부러진다는 것입니다. 더 흥미로운 점은이 비선형 성의 결과입니다. 간단히 말하면 선형 함수를 사용하면 직선을 사용하여 형상 평면을 해부 할 수 있습니다. 그러나 ReLUs의 비선형 성으로 형상 평면에 임의의 모양의 곡선을 만들 수 있습니다.

ReLU예상 값인 단점이있을 수 있습니다. 의 출력에 대한 제한은 없으며 Relu예상 값이 0이 아닙니다. 예상 값이 0과 같고 더 깊은 계층에서의 학습이 더 빠르게 발생하기 때문에 Tanh보다 인기가있었습니다 sigmoid. 하지만 ReLU이없는 이러한 장점은 batch normalization해결 이 문제를 .

자세한 내용 은 여기여기 를 참조하십시오.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.