신경망에서 ReLU를 사용하는 이유는 무엇이며 어떻게 사용합니까?


31

신경망에 왜 정류 선형 장치 (ReLU)를 사용합니까? 이것이 어떻게 신경망을 개선합니까?

왜 ReLU가 활성화 기능이라고 말합니까? 신경망에 대해 softmax 활성화 기능이 아닙니까? 우리는 다음과 같이 ReLU와 softmax를 모두 사용한다고 추측합니다.

소프트 맥스 출력을 갖는 뉴런 1 ----> 뉴런 1의 출력에 대한 ReLU,
뉴런 2의 입력 ---> 소프트 맥스 출력을 갖는 뉴런 2-> ...

뉴런 2의 입력은 기본적으로 ReLU (softmax (x1))입니다. 이 올바른지?

답변:


36

ReLU 함수는 에프(엑스)=최대(0,엑스).일반적으로 이것은 행렬 벡터 곱과 같은 다른 함수의 출력에 요소별로 적용됩니다. MLP 사용에서 정류기 장치는 아마도 판독 레이어를 제외한 다른 모든 활성화 기능을 대체합니다. 그러나 원하는 경우 혼합하여 사용할 수 있다고 가정합니다.

ReLU가 신경망을 개선하는 한 가지 방법은 훈련 속도를 높이는 것입니다. 그래디언트 계산은 매우 간단합니다 ( 엑스 의 부호에 따라 0 또는 1 ). 또한 ReLU의 계산 단계는 쉽습니다. 모든 음수 요소는 지수, 곱셈 또는 나눗셈 작업이 아닌 0.0으로 설정됩니다.

로지스틱 및 쌍곡 탄젠트 네트워크의 기울기는 ReLU의 양수 부분보다 작습니다. 이는 훈련이 진행됨에 따라 긍정적 인 부분이 더 빠르게 업데이트됨을 의미합니다. 그러나 이것은 비용이 든다. 왼쪽의 0 기울기는 "데드 뉴런"이라고하는 자체 문제가 있는데, 여기서 기울기 업데이트는 들어오는 값을 ReLU로 설정하여 출력이 항상 0이되도록합니다. ELU (또는 Leaky ReLU 또는 PReLU 등)와 같은 수정 된 ReLU 장치는이를 개선 할 수 있습니다.

엑스RELU(엑스)=1엑스>0 . 대조적으로, 시그 모이 드 유닛의 구배는 최대 이고; 반면, 이후 0에 가까운 영역의 입력에 대해 더 좋습니다 .0.250.25<엑스(엑스)1엑스[1.31,1.31]


@aginensky 페이지 상단의 질문하기 버튼을 클릭하여 질문 할 수 있습니다.
Sycorax는

질문하고 싶거나이 페이지에 참여했다는 증거는 없습니다. 솔직히 나는 ReLU가 얼마나 잘 작동하는지에 놀랐지 만 질문을 멈추었습니다. :).
aginensky

@aginensky 댓글이 중간에 삭제 된 것으로 보입니다.
Sycorax는

그 의견은 나에 의해 제거되지도 않았고 정보도받지 못했다. 나는 질문에 대한 답변을 멈췄으며 이것이 내가 주석을 다했다는 것을 의미한다고 생각합니다.
aginensky

@aginensky 나는 이것이 왜 당신이 논평을 멈출 지 모르겠습니다. 의견과 검토에 관해 궁금한 점이 있으면 meta.stats.SE에 질문 할 수 있습니다.
Sycorax는

4

주목해야 할 한 가지는 ReLU가 dem 등성이라는 것입니다. 을 감안할 때 ReLU는 것을 , 그것을보고 쉽게 그 어떤 유한 컴포지션 사실이다 . 이 속성은 네트워크의 각 레이어가 비선형 성을 적용하기 때문에 심층 신경망에 매우 중요합니다. 이제 두 개의 시그 모이 드 계열 함수를 동일한 입력에 1 ~ 3 회 반복해서 적용 해 보겠습니다.ρ(엑스)=최대(0,엑스)ρρρρ=ρ

여기에 이미지 설명을 입력하십시오

S 자형 함수가 입력을 "스 쿼싱"하여 사라지는 그래디언트 문제가 발생 함을 즉시 확인할 수 있습니다. (반복 된 응용 프로그램 수)이 무한대에 가까워짐에 따라 미분 값이 0에 가까워집니다.


0

ReLU는 입력 x를 가진 최대 함수 (x, 0)입니다. 그런 다음 ReLU는 행렬 x의 모든 음수 값을 0으로 설정하고 다른 모든 값은 일정하게 유지됩니다.

ReLU는 컨볼 루션 이후 계산되므로 tanh 또는 sigmoid와 같은 비선형 활성화 함수입니다.

Softmax는 신경망의 끝에있는 분류기입니다. 이는 출력을 0과 1 사이의 값으로 정규화하기위한 로지스틱 회귀입니다 (여기서는 SVM 분류 기가 있습니다).

CNN 전달 패스 예 : 입력-> 전환-> ReLU-> 풀-> 전환-> ReLU-> 풀-> FC-> softmax


8
다운 보팅. 이것은 매우 나쁜 대답입니다! Softmax는 분류 기가 아닙니다! 출력을 [0,1] 범위로 정규화 (스케일)하고 1까지 합산하는 기능입니다. 로지스틱 회귀는 아무것도 "정규화"하지 않습니다! "ReLU는 컨볼 루션 이후 계산되므로 tanh 또는 sigmoid와 같은 비선형 활성화 함수입니다." 동사 나 감각이 부족합니다.
Jan Kukacka

1
대답은 그렇게 나쁘지 않습니다. 동사없는 문장 "ReLU는 컨벌루션 후 계산되어야 IS TANH 또는 시그 모이 같은 비선형 활성화 함수 그러므로." softmax를 분류 자로 생각하는 것도 의미가 있습니다. 각 클래스에 확률을 할당하는 확률 분류기 로 볼 수 있습니다 . 출력을 [0,1] 간격으로 "정규화"/ "정규화"합니다.
user118967

0

ReLU는 리터럴 스위치입니다. 전기 스위치를 사용하면 1 볼트 입력시 1 볼트가 제공되고, 켜져있을 때 n 볼트 입력이 n 볼트를 제공합니다. 0으로 전환하기로 결정하면 On / Off는 ReLU와 정확히 동일한 그래프를 제공합니다. 다수의 가중 합의 가중 합 (점 곱)은 여전히 ​​선형 시스템이다. 특정 입력의 경우 ReLU 스위치는 개별적으로 켜거나 끕니다. 이는 가중 합의 다양한 가중 합이 스위치들에 의해 서로 연결되어 있기 때문에 입력으로부터 출력으로의 특정 선형 투영을 초래한다. 특정 입력 및 특정 출력 뉴런의 경우 실제로 단일 유효 가중치 합계로 요약 될 수있는 가중치 합계의 복합 시스템이 있습니다. ReLU 스위치의 상태가 0이므로 입력의 점진적인 변화에 대한 출력의 갑작스러운 불연속이 없습니다.

FFT 및 Walsh Hadamard 변환과 같은 다른 수치 적으로 효율적인 가중치 합 (dot product) 알고리즘이 있습니다. 그것들을 ReLU 기반 신경망에 통합 할 수없고 계산 이득의 혜택을 누릴 이유가 없습니다. (예 : 고정 필터 뱅크 신경망)

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.