«deep-learning» 태그된 질문

데이터의 계층 적 표현을 학습하는 데 사용되는 기술과 관련된 새로운 기계 학습 연구 영역으로, 주로 심층 신경망 (즉, 둘 이상의 숨겨진 레이어가있는 네트워크)과 일종의 확률 적 그래픽 모델로 수행됩니다.

5
신경망에서“dying ReLU”문제는 무엇입니까?
Convolutional Neural Networks for Visual Recognition 에 대한 Stanford 과정 노트를 참조하면 다음 과 같은 단락이 있습니다. "안타깝게도 ReLU 장치는 훈련 중에 깨지기 쉬우 며"사라질 수 있습니다 ". 예를 들어, ReLU 뉴런을 통해 흐르는 큰 기울기는 뉴런이 데이터 포인트에서 다시 활성화되지 않는 방식으로 가중치가 업데이트되도록 할 수 있습니다. 예를 들어, …

6
LSTM을 통한 GRU 사용시기
GRU와 LSTM의 주요 차이점은 GRU에는 2 개의 게이트 ( 리셋 및 업데이트 게이트)가 있고 LSTM에는 3 개의 게이트 (즉, 입력 , 출력 및 잊어 버림 게이트)가 있다는 것입니다. LSTM 모델 (세 개의 게이트가 있음)을 통해 네트워크를보다 잘 제어 할 때 왜 GRU를 사용합니까? 어떤 시나리오에서 GRU가 LSTM보다 선호됩니까?

8
학습률 선택
저는 현재 SGD역 전파를 사용하는 신경망에 대해 확률 적 그라디언트 디센트 (Stochastic Gradient Descent)를 구현 하고 있으며 그 목적을 이해하는 동안 학습률에 대한 값을 선택하는 방법에 대한 몇 가지 질문이 있습니다. 학습률은 하강 률을 지시하므로 오차 기울기의 모양과 관련이 있습니까? 그렇다면이 정보를 어떻게 사용하여 가치에 대한 결정을 내립니까? 어떤 종류의 …



5
ARIMA vs LSTM을 사용한 시계열 예측
내가 다루고있는 문제는 시계열 값을 예측하는 것입니다. 한 번에 하나의 시계열을보고 있으며 입력 데이터의 15 %를 기준으로 미래 값을 예측하고 싶습니다. 지금까지 나는 두 가지 모델을 보았습니다. LSTM (장기 단기 기억, 반복 신경망의 클래스) 아리마 나는 둘 다 시도하고 그들에 대한 기사를 읽었습니다. 이제 두 가지를 비교하는 방법에 대해 더 …

2
균일 한 초기화를 통해 (He 또는 Glorot) 일반 초기화를 언제 사용해야합니까? 그리고 배치 정규화의 효과는 무엇입니까?
레지던트 네트워크 (ResNet)가 일반 초기화를 대중화하게한다는 것을 알고있었습니다. ResNet에서는 He 일반 초기화가 사용되는 반면 첫 번째 레이어는 He 균일 초기화가 사용됩니다. 나는 ResNet 용지와 "정류기에 깊이 넣기"용지 (초기화 용지)를 살펴 보았지만 일반 초기화 대 균일 초기화에 대해서는 언급하지 않았습니다. 또한: 배치 정규화를 사용하면 훨씬 높은 학습 속도를 사용하고 초기화에 대해 …

3
깊은 신경망에서 언더 피팅과 싸우는 방법
인공 신경망 (NN)으로 시작했을 때 나는 주요 문제로 과적 합과 싸워야한다고 생각했다. 그러나 실제로는 NN이 20 %의 오류율 장벽을 넘어 설 수조차 없습니다. 나는 임의의 숲에서 내 점수를 이길 수 없습니다! 나는 NN이 데이터의 트렌드를 포착하기 위해해야 ​​할 일에 대해 매우 일반적인 조언을 찾고 있습니다. NN을 구현하기 위해 Theano Stacked …

3
LSTM 모델의 매개 변수 수
단일 스택 LSTM에는 몇 개의 매개 변수가 있습니까? 파라미터 수는 필요한 훈련 예의 수에 하한을 부과 하고 훈련 시간에도 영향을 미칩니다. 따라서 매개 변수의 수를 아는 것은 LSTM을 사용한 모델 훈련에 유용합니다.

4
시계열 모델 LSTM에 기능 추가
LSTM과 시계열에 대한 사용법에 대해 조금 읽었으며 흥미롭지 만 동시에 어려웠습니다. 내가 이해하는 데 어려움을 겪었던 한 가지는 이미 시계열 기능 목록에 추가 기능을 추가하는 방법입니다. 다음과 같이 데이터 세트가 있다고 가정하십시오. t-3, t-2, t-1, 출력 이제 출력에 영향을주는 기능이 있지만 반드시 시계열 기능은 아니라는 사실을 알고 날씨 외부의 날씨를 …

4
모든 교육 데이터가 포함 된 단일 "일괄 처리"보다 미니 배치 크기가 더 좋은 이유는 무엇입니까?
딥 러닝 모델의 경우 일반적인 연습은 여러 교육 시대에 미니 배치 (일반적으로 작은 32/64)를 적용하는 것입니다. 나는 이것의 이유를 실제로 추측 할 수 없다. 내가 실수하지 않는 한 배치 크기는 훈련 반복 중에 모델에서 볼 수있는 훈련 인스턴스의 수입니다. 에포크는 각 훈련 사례가 모델에 의해 보여 졌을 때 완전한 회전입니다. …

3
Keras의 batch_size가 결과 품질에 영향을 줍니까?
2-3 백만 개의 기사로 큰 LSTM 네트워크를 훈련하려고하고 메모리 오류로 어려움을 겪고 있습니다 (AWS EC2 g2x2large 사용). 한 가지 해결책은을 줄이는 것 batch_size입니다. 그러나이 매개 변수가 메모리 효율성 문제와 관련이 있는지 또는 결과에 영향을 미치는지 확실하지 않습니다. 사실, 나는 또한 batch_size예제에서 사용되는 것이 보통 2의 거듭 제곱이라는 것을 알았습니다. 내 …

3
“동일한 번역”과“불변의 번역”의 차이점은 무엇입니까?
나는 문제의 차이 이해하는 데 번역 equivariant 및 번역 불변을 . 책 딥 러닝에서 . 2016 년 MIT Press (I. Goodfellow, A. Courville 및 Y. Bengio)는 컨볼 루션 네트워크에서 찾을 수 있습니다. [...] 매개 변수 공유의 특정 형식으로 인해 레이어 에 변환에 대한 등분 산 이라는 속성이 있습니다. [...] 풀링은 …


6
교차 엔트로피 손실 설명
분류를 위해 NN을 작성한다고 가정하십시오. 마지막 레이어는 softmax 활성화가있는 밀도가 높은 레이어입니다. 분류 할 5 가지 수업이 있습니다. 하나의 훈련 예를 들어 가정의가 true label있습니다 [1 0 0 0 0]예측 될 때 [0.1 0.5 0.1 0.1 0.2]. 이 예제의 교차 엔트로피 손실을 어떻게 계산합니까?

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.