통계 및 빅 데이터 neural-networks

3

역 전파로 훈련 된 신경망에 softmax 레이어를 추가하려고하는데, 그래디언트를 계산하려고합니다. softmax 출력은 여기서 는 출력 뉴런 수입니다. jhj=ezj∑ezihj=ezj∑ezih_j = \frac{e^{z_j}}{\sum{e^{z_i}}}jjj 내가 파생하면 얻을 ∂hj∂zj=hj(1−hj)∂hj∂zj=hj(1−hj)\frac{\partial{h_j}}{\partial{z_j}}=h_j(1-h_j) 로지스틱 회귀와 유사합니다. 그러나 숫자 그라디언트 검사가 실패하기 때문에 이것은 잘못되었습니다. 내가 무엇을 잘못하고 있지? 교차 도함수 (예 : )도 계산해야한다고 생각 했지만이 작업을 수행하고 그래디언트의 …

43 neural-networks

2

신경망에서 maxout이란 무엇입니까?

신경망에서 maxout 단위가 무엇인지 설명 할 수 있습니까? 그들은 어떻게 수행하고 기존 장치와 어떻게 다릅니 까? Goodfellow 등 의 2013 "Maxout Network" 논문 을 읽으려고했습니다 . (요슈아 벤 지오 교수의 그룹에서), 그러나 나는 그것을 얻지 못합니다.

42 machine-learning neural-networks

1

신경망 : 체중 변화 운동량 및 체중 감소

Momentum 는 연속 반복에 따른 무게 변화의 변동을 줄이는 데 사용됩니다.αα\alpha Δωi(t+1)=−η∂E∂wi+αΔωi(t),Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), 여기서 는 오류 함수입니다. -가중치 벡터, 학습률.E(w)E(w)E({\bf w})ww{\bf w}ηη\eta 체중 감량 는 체중 변화에 불이익을줍니다 :λλ\lambda Δωi(t+1)=−η∂E∂wi−ληωiΔωi(t+1)=−η∂E∂wi−ληωi\Delta\omega_i(t+1) =- \eta\frac{\partial E}{\partial w_i} - \lambda\eta\omega_i 문제는 역 전파 동안 두 가지 …

41 neural-networks optimization regularization gradient-descent

4

왜 다른 것 대신 S 자형 기능이 필요한가?

사실상의 표준 시그 모이 드 함수 인 이 (심층적이지 않은) 신경망과 로지스틱 회귀 분석에서 왜 그렇게 인기가 있습니까?11+e−x11+e−x\frac{1}{1+e^{-x}} 계산 시간이 빠르거나 감쇄 속도가 느린 다른 많은 파생 함수를 사용하지 않는 이유는 무엇입니까? S 자형 함수에 대한 Wikipedia 에는 몇 가지 예가 있습니다 . 느린 부패와 빠른 계산으로 내가 가장 좋아하는 …

40 logistic neural-networks least-squares

3

숨겨진 Markov 모델과 신경망의 차이점은 무엇입니까?

통계에 발이 젖었으므로이 질문이 이해가되지 않으면 죄송합니다. Markov 모델을 사용하여 숨겨진 상태 (불공정 카지노, 주사위 롤 등) 및 신경망을 예측하여 사용자가 검색 엔진에서 클릭 한 클릭을 연구했습니다. 둘 다 우리가 관측 값을 사용하여 알아 내려고 애썼던 상태를 숨겼습니다. 이해하기 위해 둘 다 숨겨진 상태를 예측하므로 신경망에서 Markov 모델을 언제 사용할지 …

40 data-mining algorithms neural-networks markov-process

4

직선 활성화 기능은 신경망에서 사라지는 기울기 문제를 어떻게 해결합니까?

신경 네트워크 의 배니싱 그래디언트 문제에 대한 해결책으로 여러 곳에서 정류 선형 유닛 (ReLU)이 칭찬했습니다 . 즉, max (0, x)를 활성화 함수로 사용합니다. 활성화가 양성일 때, 이것은 시그 모이 드 활성화 기능보다 낫다는 것이 명백하다. 그 파생은 큰 x에 대해 임의적으로 작은 값 대신에 항상 1이기 때문이다. 반면에, x가 0보다 …

40 machine-learning neural-networks deep-learning gradient-descent

7

신경망의 데이터 정규화 및 표준화

신경망 (ANN)을 사용하여 복잡한 시스템의 결과를 예측하려고합니다. 결과 (종속) 값의 범위는 0에서 10,000 사이입니다. 입력 변수마다 범위가 다릅니다. 모든 변수는 대략 정규 분포를 갖습니다. 훈련 전에 데이터를 확장하는 다른 옵션을 고려합니다. 한 가지 옵션은 각 변수의 평균 및 표준 편차 값을 독립적으로 사용하여 누적 분포 함수 를 계산 하여 입력 …

39 machine-learning neural-networks multidimensional-scaling

2

ImageNet : 상위 1 및 상위 5 오류율이란 무엇입니까?

ImageNet 분류 용지에서 상위 1 및 상위 5 오류율은 일부 솔루션의 성공을 측정하는 데 중요한 단위이지만 이러한 오류율은 무엇입니까? 에 깊은 길쌈 신경망과 ImageNet 분류 Krizhevsky 등으로. 하나의 단일 CNN (7 페이지)을 기반으로하는 모든 솔루션에는 상위 5 개의 오류율이 없지만 5 및 7 개의 CNN이있는 솔루션에는 5 개의 CNN에 비해 …

38 classification neural-networks error measurement-error image-processing

5

신경망이 무엇을하고 있는지 시각화 / 이해하는 방법?

신경망은 복잡한 구조로 인해 종종 "블랙 박스"로 취급됩니다. 모델이 내부에서 어떻게 작동하는지 직관적으로 파악하는 것이 유리하기 때문에 이것은 이상적이지 않습니다. 훈련 된 신경망이 어떻게 작동하는지 시각화하는 방법은 무엇입니까? 다른 방법으로, 네트워크에 대해 쉽게 이해하기 쉬운 설명을 추출 할 수있는 방법은 무엇입니까 (예 :이 숨겨진 노드는 주로 이러한 입력으로 작동합니다)? 저는 …

37 data-visualization neural-networks

7

정규화로 인해 데이터에 대한 Deep Neural Nets 기아가 해결되지 않는 이유는 무엇입니까?

일반적으로 Neural Networks 및 Deep Neural Networks와 관련하여 자주 제기되는 문제는 "데이터가 배고프다"는 것입니다. 즉, 큰 데이터 세트가 없으면 제대로 수행되지 않습니다. 네트워크 훈련을 위해 내 이해는 이것이 NNets, 특히 Deep NNets가 많은 자유도를 가지고 있기 때문입니다. 따라서 모델로서 NNet에는 매우 많은 수의 매개 변수가 있으며, 모델의 매개 변수 수가 …

37 neural-networks deep-learning regularization

4

CNN에서 "커널"과 "필터"의 차이점

컨볼 루션 신경망의 맥락에서 용어 "커널"과 "필터"의 차이점은 무엇입니까?

37 neural-networks terminology deep-learning conv-neural-network

4

신경망이 일반화되지 않으면 어떻게해야합니까?

신경망을 훈련하고 있는데 훈련 손실은 줄어들지 만 검증 손실은 그렇지 않거나 매우 유사한 아키텍처와 데이터를 사용한 참조 또는 실험을 기반으로 기대했던 것보다 훨씬 줄어 듭니다. 이 문제를 어떻게 해결할 수 있습니까? 질문은 신경망이 학습하지 않으면 어떻게해야합니까? 이 질문에서 영감을 얻은 것으로, 신경망의 일반화 오류를 달성 가능한 것으로 입증 된 수준 …

36 neural-networks deep-learning

5

신경망의 비용 함수는 볼록하지 않습니까?

신경망 의 비용 함수 는 J(W,b)J(W,b)J(W,b) 이며 볼록하지 않은 것으로 주장됩니다 . 로지스틱 회귀의 비용 함수와 매우 유사하다는 것을 알기 때문에 왜 그런 식인지 이해가되지 않습니다. 볼록하지 않은 경우 2 차 미분 ∂J∂W<0∂J∂W<0\frac{\partial J}{\partial W} < 0, 맞습니까? 최신 정보 @gung의 의견뿐만 아니라 아래의 답변 덕분에 숨겨진 층이 전혀 없다면 …

36 neural-networks loss-functions

4

LSTM은 소실 구배 문제를 어떻게 방지합니까?

LSTM은 소실 구배 문제를 피하기 위해 특별히 고안되었습니다. 아래 다이어그램의 Greff 등의 셀 에서 루프에 해당하는 CEC (Constant Error Carousel)를 사용하여이를 수행해야합니다 . (출처 : deeplearning4j.org ) 그리고 그 부분은 일종의 항등 함수로 볼 수 있으므로 미분은 하나이고 기울기는 일정하게 유지됩니다. 내가 이해하지 못하는 것은 다른 활성화 기능으로 인해 사라지지 …

35 neural-networks lstm

3

기계 학습 : 이진 예측에 범주 형 크로스 엔트로피 또는 이진 크로스 엔트로피 손실을 사용해야합니까?

우선, 이진 예측을 수행해야하는 경우 원 핫 인코딩을 수행하여 두 개 이상의 클래스를 만들어야한다는 것을 깨달았습니다. 이 올바른지? 그러나 클래스가 하나 뿐인 예측에 대해서만 이진 교차 엔트로피입니까? TensorFlow와 같은 대부분의 라이브러리에서 일반적으로 발견되는 범주 형 크로스 엔트로피 손실을 사용한다면 큰 차이가 있습니까? 실제로 범주와 이진 교차 엔트로피의 정확한 차이점은 무엇입니까? …

35 machine-learning neural-networks loss-functions tensorflow cross-entropy

«neural-networks» 태그된 질문