«activation-function» 태그된 질문

2
ReLU가 활성화 기능으로 사용되는 이유는 무엇입니까?
활성화 함수는 w * x + b신경망 에서 유형의 선형 출력에 비선형 성을 도입하는 데 사용됩니다 . 나는 sigmoid와 같은 활성화 기능을 직관적으로 이해할 수 있습니다. 나는 역 전파 동안 죽은 뉴런을 피하는 ReLU의 장점을 이해합니다. 그러나 출력이 선형 인 경우 ReLU가 활성화 기능으로 사용되는 이유를 이해할 수 없습니다. 비선형 …

2
GELU 활성화 란 무엇입니까?
I가 겪고있는 BERT 종이 사용 겔루 (가우스 오류 선형 단위) 와 같은 상태 방정식 이는GELU(x)=xP(X≤x)=xΦ(x).GELU(x)=xP(X≤x)=xΦ(x). GELU(x) = xP(X ≤ x) = xΦ(x).0.5x(1+tanh[2/π−−−√(x+0.044715x3)])0.5x(1+tanh[2/π(x+0.044715x3)])0.5x(1 + tanh[\sqrt{ 2/π}(x + 0.044715x^3)]) 방정식을 단순화하고 대략적인 방법을 설명해 주시겠습니까?

1
ReLU가 다른 활성화 기능보다 나은 이유
여기 에 대답은 sigmoid유사한 활성화 기능에 있었지만 소멸 Relu이 있으며 예상 값인 그라디언트 소멸 및 폭발을 나타냅니다 . 의 출력에는 제한이 없으므로 Relu예상 값이 0이 아닙니다. 나는 Relu그것 의 인기가 이전 tanh보다 머신 러닝 전문가들 사이에서 가장 인기있는 시간을 기억합니다 sigmoid. 그 이유는의 예상 값이 tanh0과 같았으며 신경망에서 더 깊은 …

1
신경망에서의 활성화 기능의 차이
신경망의 활성화 기능 유형을 연구했습니다. 함수 자체는 매우 간단하지만 응용 프로그램의 차이점은 명확하지 않습니다. 원하는 이진 / 연속 출력에 따라 논리 함수와 선형 함수를 구별하는 것이 합리적이지만 단순 선형 함수에 비해 시그 모이 드 함수의 장점은 무엇입니까? ReLU는 나를 위해 특히 이해하기 어렵습니다. 예를 들어 양의 입력의 경우 선형처럼 동작하지만 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.