배치 정규화는 S 자형이 ReLU보다 더 잘 작동한다는 것을 의미합니까?

9

배치 정규화와 ReLU는 모두 사라지는 기울기 문제에 대한 솔루션입니다. 배치 정규화를 사용하는 경우 시그 모이 드를 사용해야합니까? 또는 batchnorm을 사용할 때에도 가치가있는 ReLU 기능이 있습니까?

batchnorm에서 수행 된 정규화는 0의 활성화를 마이너스로 전송한다고 가정합니다. 이것은 batchnorm이 "dead ReLU"문제를 해결한다는 의미입니까?

그러나 탄과 물류의 지속적인 특성은 여전히 매력적입니다. batchnorm을 사용하는 경우 tan이 ReLU보다 더 잘 작동합니까?

나는 그 대답이에 달려 있다고 확신한다 . 그렇다면 경험에서 무엇이 효과가 있었으며 응용 프로그램의 두드러진 특징은 무엇입니까?

deep-learning batch-normalization

— generic_user
소스

종이가 활성화 전에 BatchNorm을 사용하도록 제안하더라도 실제로 BN을 적용하면 더 나은 솔루션이 산출됩니다. 내가 의미하는 것을 간과하지 않으면 후자의 경우 BN이 활성화에 영향을 미치지 않습니다. 물론 BLU가 ReLU 이전과 다른 활성화를 적용 할 때 더 잘 작동한다면 공개 질문입니다. 제 생각에는 아닙니다. ReLU는 여전히 간단한 파생과 같은 다른 장점을 가지고 있기 때문입니다. 그러나 나는 또한 궁금하다. 누군가이 분야에서 경험을했을 수도 있습니다.

— oezguensi

1

배치 정규화의 기본 개념은 (중간 기사에서 발췌)

활성화를 조정하고 조정하여 입력 레이어를 정규화합니다. 예를 들어 0에서 1까지, 1에서 1000까지의 기능이 있으면 학습 속도를 높이기 위해 정규화해야합니다. 입력 레이어가 이익을 얻는다면, 항상 변경되는 숨겨진 레이어의 값에 대해서도 동일한 작업을 수행하고 훈련 속도를 10 배 이상 향상 시키십시오.

여기 기사를 읽으십시오.

이것이 일괄 정규화를 사용하는 이유입니다. 이제 당신의 질문에, sigmoid의 출력이 0과 1 사이의 제약 조건이며 배치 정규화의 모토는 무엇인지보십시오. sigmoid 활성화와 함께 Bach-normalization을 사용하면 sigmoid (0) ~ sigmoid (1) 사이, 즉 0.5 ~ 0.73 ~ 됩니다. 그러나 배치 정규화와 함께 ReLU를 사용하면 출력이 0에서 1로 분산되어 최종적으로 우리에게 좋은 결과가 될 수 있기 때문에 가능한 한 다양한 출력을 원합니다. 따라서 ReLU가 다른 활성화 중에서 가장 좋은 선택이라고 생각합니다. $frac{1}/{(1+1/e)}$

— 광인
소스

0

madman은 배치 정규화에 관한 귀하의 질문에 올바르게 답변했으며 두 번째 부분에 연속 함수가 어떻게 매력적으로 보일지 모르지만 relu가 모든 것보다 낫고이 말은 내 편이 아닙니다. Hinton은 "우리는 sigmoid를 활성화 함수로 사용하는 멍청한 사람들이었고, 그 형태를 이해하지 않으면 신경 세포가 학습 상태에 빠지지 않도록 항상 포화 상태에 빠지기 때문에 30 년이 걸렸습니다. 그는 자신과 다른 사람들을 모두 어리석은 사람들이라고 불렀습니다.”따라서 활성화 기능을 선택하는 것은 단지 지속적이고 그것이 뉴런에 어떤 영향을 미치는지 살펴 보지 않기 때문입니다. '

참고 : 신경망을 연구하는 경우 신경망을 크고 깊은 복합 기능으로 생각하여 작동하는 이유와 작동하는 이유를 이해하려면 신경망이 어떻게 더 높은 차원에서 데이터를 많이 만드는지 이해해야합니다. "매니 폴드의 장점에 대한 데이터는 선택한 기능에 따라 달라지며 입력으로 제공 될 때 함수가 다른 함수 출력을 변환하는 방법에 따라 달라집니다.

— khwaja wisal
소스