«gradient-descent» 태그된 질문

Gradient Descent는 함수의 최소값을 찾는 알고리즘입니다. 함수의 편도 함수 (그래디언트)를 반복적으로 계산하고 이러한 편도 함수에 비례하여 단계적으로 내려갑니다. Gradient Descent의 주요 응용 분야 중 하나는 매개 변수화 된 모델을 데이터 세트에 맞추는 것입니다. 최소화 할 함수는 모델의 오류 함수입니다.

4
Scikit-learn : 로지스틱 회귀뿐만 아니라 SGDClassifier로 예측하기
로지스틱 회귀를 학습하는 방법은 확률 적 그라디언트 디센트 (schakit-learn)가 인터페이스를 제공하는 확률 적 그라디언트 디센트를 사용하는 것입니다. 내가하고 싶은 것은 scikit-learn의 SGDClassifier를 가져 와서 Logistic Regression here 과 동일한 점수를 얻는 것 입니다. 그러나 점수가 동일하지 않기 때문에 일부 기계 학습 향상 기능이 누락되어 있어야합니다. 이것은 내 현재 코드입니다. SGDClassifier에서 …


4
경사 하강은 항상 최적으로 수렴합니까?
그래디언트 디센트가 최소로 수렴하지 않는 시나리오가 있는지 궁금합니다. 그래디언트 디센트가 항상 전역 최적으로 수렴되는 것은 아닙니다. 또한 계단 크기가 너무 클 경우 최적에서 벗어날 수 있다는 것도 알고 있습니다. 그러나, 그것이 어떤 최적에서 벗어나면 결국 다른 최적으로 갈 것 같습니다. 따라서, 경사 하강은 국부적 또는 세계적 최적으로 수렴되도록 보장 될 …

1
ReLU가 다른 활성화 기능보다 나은 이유
여기 에 대답은 sigmoid유사한 활성화 기능에 있었지만 소멸 Relu이 있으며 예상 값인 그라디언트 소멸 및 폭발을 나타냅니다 . 의 출력에는 제한이 없으므로 Relu예상 값이 0이 아닙니다. 나는 Relu그것 의 인기가 이전 tanh보다 머신 러닝 전문가들 사이에서 가장 인기있는 시간을 기억합니다 sigmoid. 그 이유는의 예상 값이 tanh0과 같았으며 신경망에서 더 깊은 …


1
몇 개의 LSTM 셀을 사용해야합니까?
사용해야하는 최소, 최대 및 "합리적인"양의 LSTM 셀과 관련된 경험 법칙 (또는 실제 규칙)이 있습니까? 특히 TensorFlow 및 속성의 BasicLSTMCell 과 관련이 num_units있습니다. 분류 문제가 다음과 같이 정의되었다고 가정하십시오. t - number of time steps n - length of input vector in each time step m - length of output vector …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

4
함수가 매끄럽다면 왜 그라데이션 하강 속도가 빨라 집니까?
이제 "Scikit-Learn 및 TensorFlow를 사용한 실습 머신 러닝" 이라는 책을 읽었으며 11 장에는 ELU (지수 적 ReLU)에 대한 설명이 있습니다. 셋째,이 기능은 z = 0을 포함하여 모든 곳에서 부드럽습니다. z = 0만큼 좌우로 튀지 않기 때문에 그라데이션 하강 속도를 높이는 데 도움이됩니다. z수단은 상기 그래프에서 X 축. z < 0선에 …

1
목적 함수와 출력 레이어 활성화 기능 사이의 연결은 얼마나 유연합니까?
많은 신경망 패키지에서 목표 계층과 출력 계층의 활성화 기능이 최소화되도록 쌍을 이루는 것이 표준으로 보입니다. 예를 들어, 회귀에 사용되는 선형 출력 레이어의 경우 제곱 오차 목적 함수를 갖는 것이 표준 (및 종종 선택)입니다. 또 다른 일반적인 페어링은 로지스틱 출력 및 로그 손실 (또는 교차 엔트로피)입니다. 또 다른 하나는 softmax 및 …

2
벡터 연산에 기초한 확률 적 경사 하강?
N 개의 샘플이있는 데이터 세트를 사용하여 확률 적 경사 하강 회귀 알고리즘을 훈련시키고 싶다고 가정 해 봅시다. 데이터 세트의 크기가 고정되어 있으므로 데이터를 T 번 재사용합니다. 각 반복 또는 "에포크"에서 전체 트레이닝 세트를 무작위로 재정렬 한 후 각 트레이닝 샘플을 정확히 한 번 사용합니다. 내 구현은 Python과 Numpy를 기반으로합니다. 따라서 …

2
학습률이 신경 네트워크의 가중치를 급등시키는 이유는 무엇입니까?
나는 약간의 연구를 위해 간단한 신경망을 작성하기 위해 tensorflow를 사용하고 있으며 훈련하는 동안 'nan'무게에 많은 문제가있었습니다. 최적화 프로그램 변경, 손실 변경, 데이터 크기 등과 같은 다양한 솔루션을 시도했지만 아무 소용이 없습니다. 마지막으로, 학습률의 변화가 나의 체중에 믿을 수없는 차이를 가져 왔다는 것을 알았습니다. 학습 속도 .001 (정말 보수적이라고 생각)을 사용하면 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.