«backpropagation» 태그된 질문

"오류의 ​​역 전파"의 약자 인 역전 파는 경사 하강과 같은 최적화 방법과 함께 사용되는 인공 신경망을 훈련시키는 일반적인 방법입니다.

6
역 전파없이 신경망을 훈련시킬 수 있습니까?
많은 신경망 서적과 자습서는 백 그라디언트 알고리즘에 많은 시간을 소비하는데, 이는 기본적으로 그래디언트를 계산하는 도구입니다. ~ 10K 매개 변수 / 무게로 모델을 작성한다고 가정 해 봅시다. 그라디언트 프리 최적화 알고리즘을 사용하여 최적화를 실행할 수 있습니까? 수치 구배 계산이 너무 느리다고 생각하지만 Nelder-Mead, Simulated Annealing 또는 Genetic Algorithm과 같은 다른 방법은 …


1
softmax_cross_entropy_with_logits는 softmax_cross_entropy_with_logits_v2와 어떻게 다릅니 까?
특히, 나는이 진술에 대해 궁금해한다고 생각합니다. TensorFlow의 향후 주요 버전에서는 기본적으로 그라디언트가 backprop의 레이블 입력으로 흐를 수 있습니다. 내가 사용할 때 표시됩니다 tf.nn.softmax_cross_entropy_with_logits. 같은 메시지에서 나는 그것을 볼 것을 촉구한다 tf.nn.softmax_cross_entropy_with_logits_v2. 나는 문서를 살펴 보았지만 다음과 같은 내용만을 언급했다 tf.nn.softmax_cross_entropy_with_logits_v2. 역전 파는 로짓과 레이블 모두에서 발생합니다. 역 전파를 레이블로 전파하지 …

6
Softmax / Cross Entropy를 이용한 역 전파
역 전파가 softmax / cross-entropy 출력 레이어에서 어떻게 작동하는지 이해하려고합니다. 교차 엔트로피 오류 함수는 E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlog⁡ojE(t,o)=-\sum_j t_j \log o_j 과 와 출력 뉴런의 목표 출력으로서 J 각각. 합계는 출력 레이어의 각 뉴런 위에 있습니다. o를 J 자체 softmax를 함수의 결과이다 :tttooojjjojojo_j oj=softmax(zj)=ezj∑jezjoj=softmax(zj)=ezj∑jezjo_j=softmax(z_j)=\frac{e^{z_j}}{\sum_j e^{z_j}} 다시, 합은 출력 레이어의 각 뉴런 위에 있으며 …

5
신경망 훈련을위한 역 전파 vs 유전자 알고리즘
나는 각 방법의 장단점을 논의하는 몇 가지 논문을 읽었으며 일부는 GA가 최적의 솔루션을 찾는 데 아무런 개선이 없지만 다른 사람들은 그것이 더 효과적이라는 것을 보여줍니다. GA는 일반적으로 문학에서 선호되는 것처럼 보이지만 (대부분 사람들은 필요한 결과를 얻기 위해 어떤 방식 으로든 수정하지만) 대부분의 소프트웨어 솔루션이 역 전파 만 사용하는 이유는 무엇입니까? …

4
tanh가 활성화 함수로 sigmoid보다 거의 항상 더 나은 이유는 무엇입니까?
Coursera 의 Andrew Ng의 Neural Networks and Deep Learning 과정에서 그는 tanhtanhtanh 를 사용하는 것이 를 사용하는 것보다 거의 항상 바람직 하다고 말합니다 .sigmoidsigmoidsigmoid 그가 준 이유는 's 0.5 대신 center를 사용하는 출력이 약 0이기 때문에 "다음 층에 대한 학습이 조금 더 쉬워진다"는 것입니다.s i g m o i dtanhtanhtanhsigmoidsigmoidsigmoid …


1
중심이 아닌 활성화 기능이 역 전파에서 왜 문제가됩니까?
나는 여기 에서 다음을 읽었습니다 . S 자형 출력은 0 중심이 아닙니다 . 신경망에서 나중 프로세싱 계층의 뉴런이 곧 중심에 있지 않은 데이터를 수신하기 때문에 바람직하지 않습니다. 뉴런으로 들어오는 데이터가 항상 양수인 경우 (예 : 에서 요소 ), 역 전파 동안 가중치 의 기울기 는 모두 양수이거나 모두 음수입니다 (전체 …

1
ResNet 건너 뛰기 연결을 통한 그라디언트 역 전파
ResNet 모듈 / 건너 뛰기 연결을 사용하여 그라디언트가 신경망을 통해 어떻게 전파되는지 궁금합니다. ResNet에 대한 몇 가지 질문을 보았습니다 (예 : 스킵 레이어 연결을 가진 신경망 ). 이것은 훈련 중 그라디언트의 역 전파에 대해 특별히 묻습니다. 기본 아키텍처는 다음과 같습니다. 필자는이 논문 인 이미지 인식을위한 잔차 네트워크 연구 (Research of …

3
신경망에 왜 경사 하강을 사용합니까?
역 전파 알고리즘을 사용하여 신경망을 훈련 할 때, 경사 하강 법이 가중치 업데이트를 결정하는데 사용된다. 내 질문이있다 : 오히려 천천히 일정한 무게에 대한 최소한의 포인트를 찾을 그라데이션 하강 방법을 사용하는 것보다, 왜 우리는 단지 파생 설정하지 , 그리고 오차를 최소화하는 무게 값 를 찾으 십니까?d(Error)dw=0d(Error)dw=0\frac{d(\text{Error})}{dw}=0www 또한 역 전파의 오차 함수가 …

2
신경망에서 왜 다른 메타 휴리스틱보다 그라데이션 방법을 사용합니까?
깊고 얕은 신경망을 훈련 할 때 왜 다른 메타 휴리스틱 스와 달리 그래디언트 방법 (예 : 그래디언트 디센트, 네 스테 로프, 뉴턴-라프 슨)이 일반적으로 사용됩니까? 메타 휴리스틱 스 (metaheuristics) 란 로컬 소소한 상황에 빠지지 않도록 개발 된 시뮬레이션 어닐링, 개미 식민지 최적화 등과 같은 방법을 의미합니다.


2
역 전파 알고리즘
다층 퍼셉트론 (MLP)에 사용 된 역 전파 알고리즘 에 약간의 혼동이 있었습니다. 비용 함수에 의해 오류가 조정됩니다. 역 전파에서 숨겨진 레이어의 가중치를 조정하려고합니다. 이해할 수있는 출력 오류, 즉 e = d - y[첨자없이]입니다. 질문은 : 숨겨진 레이어의 오류는 어떻게 얻습니까? 어떻게 계산합니까? 역 전파하는 경우 적응 필터의 비용 ​​함수로 사용해야합니까, …

1
(미니) 배치 그라디언트 괜찮은 그라디언트의 합 또는 평균?
미니 배치 그라디언트 괜찮은 것을 구현했을 때 훈련 배치의 모든 예제의 그라디언트를 평균화했습니다. 그러나, 이제는 최적의 학습 속도가 온라인 그래디언트보다 훨씬 높다는 것을 알았습니다. 내 직감은 평균 그라디언트가 덜 시끄럽기 때문에 더 빨리 따라갈 수 있기 때문입니다. 따라서 배치의 그라디언트를 요약하는 것만으로도 의미가 있습니다. 어쨌든 값은 양수와 음수 일 수 …

3
RNN에서 시간이지나면서 다시 전파되는 이유는 무엇입니까?
반복적 인 신경망에서는 일반적으로 여러 시간 단계를 통해 전파되고 네트워크를 "롤링 해제"한 다음 입력 시퀀스를 통해 전파됩니다. 시퀀스에서 각 개별 단계 후에 가중치를 업데이트하지 않는 이유는 무엇입니까? (잘림 길이 1을 사용하는 것과 동일하므로 롤링 할 것이 없습니다.) 이것은 사라지는 기울기 문제를 완전히 제거하고 알고리즘을 크게 단순화하며 아마도 현지 최소값에 걸릴 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.