«deep-learning» 태그된 질문

데이터의 계층 적 표현 학습과 관련된 머신 러닝 영역은 주로 심층 신경망을 사용하여 수행됩니다.

1
소규모 데이터 세트에서 LSTM의 과적 합 방지
저는 80 차원의 word2vec와 같은 표현을 사용하여 128 개의 숨겨진 단위를 가진 단일 계층 LSTM을 사용하여 감정 예측에 대한 15000 트윗을 모델링하고 있습니다. 1 에포크 후 하강 정확도 (임의의 = 38 %로 38 %)를 얻습니다. 훈련 정확도가 높아질수록 검증 정확도가 떨어지기 시작합니다. 따라서 정규화 방법을 생각하고 있습니다. 숨겨진 단위 수를 …

1
딥 네트워크의 LSTM 계층을 훈련시키는 방법
텍스트를 분류하기 위해 lstm 및 피드 포워드 네트워크를 사용하고 있습니다. 텍스트를 one-hot 벡터로 변환하고 각각을 lstm에 공급하여 단일 표현으로 요약 할 수 있습니다. 그런 다음 다른 네트워크에 공급합니다. 그러나 lstm을 어떻게 훈련합니까? 텍스트를 순서대로 분류하고 싶습니다. 훈련없이 텍스트를 제공해야합니까? 나는 구절을 분류기의 입력 레이어에 공급할 수있는 단일 항목으로 표현하고 싶습니다. …

3
컨볼 루션 신경망은 행렬 곱셈 대신 컨볼 루션을 정확히 어떻게 사용합니까?
딥 러닝 에 관한 Yoshua Bengio의 책을 읽고 있었고 224 페이지에 나와 있습니다. 컨볼 루션 네트워크는 레이어 중 하나 이상에서 일반 행렬 곱셈 대신 컨볼 루션을 사용하는 신경망입니다. 그러나 수학적으로 정확한 의미에서 "콘볼 루션으로 행렬 곱셈을 대체하는"방법을 100 % 확신하지 못했습니다. 내가 정말로 관심있는 것은 1D의 입력 벡터 ( 와 …

1
왜 "새들 프리 뉴턴"하강 알고리즘이 실제로 사용되지 않습니까?
최근에 나는 Yann Dauphin 등의 논문을 읽었습니다. 고차원 비 볼록 최적화에서 새들 포인트 문제를 식별하고 공격합니다 . 여기서 새들 프리 뉴턴 (Saddle-Free Newton) 이라는 흥미로운 하강 알고리즘을 도입합니다. 신경 알고리즘 은 뉴럴 네트워크 최적화에 적합하게 맞춰져 있고 안장 포인트에 걸리지 않아야합니다. 바닐라 SGD와 같은 1 차 방법과 유사합니다. 이 논문은 …


1
확률 적 경사 하강 (SGD)에 적합한 미니 배치 크기 선택
확률 적 경사 하강을 수행 할 때 미니 배치 크기 선택을 검토하는 문헌이 있습니까? 내 경험상, 그것은 일반적으로 교차 검증 또는 다양한 경험 규칙을 통해 발견되는 경험적 선택 인 것 같습니다. 유효성 검사 오류가 감소함에 따라 미니 배치 크기를 천천히 늘리는 것이 좋습니까? 이것이 일반화 오류에 어떤 영향을 미칩니 까? …

2
Google Inception 모델 : 여러 softmax가있는 이유는 무엇입니까?
Google Inception 모델의 토폴로지는 여기에서 찾을 수 있습니다. Google Inception Netowrk 이 모델에는 3 개의 softmax 레이어 (# 154, # 152, # 145)가 있으며 그 중 2 개는이 모델의 초기 이스케이프입니다. 내가 아는 한, softmax 레이어는 최종 출력을위한 것이므로 왜 그렇게 많은가? 다른 2 레이어의 목적은 무엇입니까?


5
신경망 / 딥 러닝을 설계하고 적용하기위한 시각적 도구가 있습니까? [닫은]
닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 교차 검증에 대한 주제가 되도록 질문을 업데이트하십시오 . 휴일 9 개월 전 . 나는 caffe, Theano, TensorFlow, keras와 같은 머신 러닝과 딥 러닝을위한 많은 라이브러리가 있다는 것을 알고 있습니다. 그러나 저는 신경망의 아키텍처를 알고 싶어하는 것 …

1
배치 정규화를 통한 역 전파의 매트릭스 형태
배치 정규화 는 심층 신경망에서 상당한 성능 향상으로 인정되었습니다. 인터넷에 많은 자료가 활성화별로이를 구현하는 방법을 보여줍니다. 나는 이미 행렬 대수를 사용하여 backprop를 구현했으며, 고밀도 언어 ( Rcpp고밀도 행렬 곱셈 에 (그리고 결국 GPU)에 의존하는 동안 )에서 모든 것을 추출하고 for-loops를 사용하면 코드가 느려질 것입니다 대단한 고통에 더해 배치 정규화 함수는 …

3
신경 아키텍처 : 데이터 정보 자동 설계
신경망의 최근 진보는 점점 더 복잡 해지는 디자인 복잡성을 특징으로하는 일련의 새로운 아키텍처로 요약된다. LeNet5 (1994)에서 AlexNet (2012), Overfeat (2013) 및 GoogleLeNet / Inception (2014) 등 ... 머신이 데이터에 따라 어떤 아키텍처를 사용할지 결정 / 설계하게하려는 시도가 있습니까?

4
Gradient Descent를 옵티 마이저로 사용하여 학습률을 체계적으로 조정하는 방법은 무엇입니까?
외부 / ML / DL 필드 Tensorflow를 기반으로 Udacity Deep Learning 과정을 시작했습니다. 과제 3 문제 4 수행; 다음 구성으로 학습 속도를 조정하려고합니다. 배치 크기 128 걸음 수 : 2 개의 에포크를 채우기에 충분 숨겨진 레이어의 크기 : 1024, 305, 75 가중치 초기화 : 표준에서 잘림 sqrt (2 / n)의 …

2
시간에 따른 잘린 역 전파를 사용할 때 초기 패턴 캡처 (RNN / LSTM)
RNN / LSTM을 사용하여 감정 분석을 수행한다고하는데, 이는 다 대일 접근 방식입니다 ( 이 블로그 참조 ). 네트워크는 절단 된 역 전파 전파 시간 (BPTT)을 통해 훈련되며, 여기서 네트워크는 평소와 같이 30 개의 마지막 단계 만 수행됩니다. 필자의 경우 분류하려는 각 텍스트 섹션이 풀리는 30 단계 (~ 100 단어)보다 훨씬 …

2
0-1 손실 함수가 다루기 어려운 이유는 무엇입니까?
Ian Goodfellow의 딥 러닝 북에는 다음과 같이 쓰여 있습니다. 때때로, 우리가 실제로 걱정하는 손실 함수 (예 : 분류 오류)는 효율적으로 최적화 할 수없는 기능이 아닙니다. 예를 들어 선형 분류기의 경우에도 예상되는 0-1 손실을 정확하게 최소화하는 것은 일반적으로 다루기 어렵습니다 (입력 차원에서 지수). 이러한 상황에서 대체적으로 대리 손실 기능을 최적화하여 프록시 …

3
배경 : 저는 Ian Goodfellow와 Yoshua Bengio, Aaron Courville의 딥 러닝 6 장을 공부하고 있습니다. 섹션 6.2.2.2 ( 여기에서 볼 수있는 183의 183 페이지 182 )에서 출력 에 시그 모이 드를 사용하는 것이 동기가됩니다.피( y= 1 | x )P(y=1|x)P(y=1|x) 재료를 요약 하기 위해 활성화가 적용되기 전에 출력 뉴런으로 설정합니다. 여기서 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.