데이터 과학 gradient-descent

4

Scikit-learn : 로지스틱 회귀뿐만 아니라 SGDClassifier로 예측하기

로지스틱 회귀를 학습하는 방법은 확률 적 그라디언트 디센트 (schakit-learn)가 인터페이스를 제공하는 확률 적 그라디언트 디센트를 사용하는 것입니다. 내가하고 싶은 것은 scikit-learn의 SGDClassifier를 가져 와서 Logistic Regression here 과 동일한 점수를 얻는 것 입니다. 그러나 점수가 동일하지 않기 때문에 일부 기계 학습 향상 기능이 누락되어 있어야합니다. 이것은 내 현재 코드입니다. SGDClassifier에서 …

24 python logistic-regression scikit-learn gradient-descent

3

그라디언트 디센트와 확률 적 그라디언트 디센트의 차이점은 무엇입니까?

그라디언트 디센트와 확률 적 그라디언트 디센트의 차이점은 무엇입니까? 나는 이것에 익숙하지 않습니다. 짧은 예를 들어 차이점을 설명 할 수 있습니까?

24 machine-learning neural-network deep-learning gradient-descent

4

경사 하강은 항상 최적으로 수렴합니까?

그래디언트 디센트가 최소로 수렴하지 않는 시나리오가 있는지 궁금합니다. 그래디언트 디센트가 항상 전역 최적으로 수렴되는 것은 아닙니다. 또한 계단 크기가 너무 클 경우 최적에서 벗어날 수 있다는 것도 알고 있습니다. 그러나, 그것이 어떤 최적에서 벗어나면 결국 다른 최적으로 갈 것 같습니다. 따라서, 경사 하강은 국부적 또는 세계적 최적으로 수렴되도록 보장 될 …

21 machine-learning neural-network deep-learning optimization gradient-descent

1

ReLU가 다른 활성화 기능보다 나은 이유

여기 에 대답은 sigmoid유사한 활성화 기능에 있었지만 소멸 Relu이 있으며 예상 값인 그라디언트 소멸 및 폭발을 나타냅니다 . 의 출력에는 제한이 없으므로 Relu예상 값이 0이 아닙니다. 나는 Relu그것 의 인기가 이전 tanh보다 머신 러닝 전문가들 사이에서 가장 인기있는 시간을 기억합니다 sigmoid. 그 이유는의 예상 값이 tanh0과 같았으며 신경망에서 더 깊은 …

17 machine-learning neural-network deep-learning gradient-descent activation-function

4

Gradient Descent는 모든 옵티마이 저의 중심입니까?

Gradient descent가 Adam, Adagrad, RMSProp 및 기타 여러 옵티 마이저와 같은 옵티 마이저에서 사용되는 주요 알고리즘인지 알고 싶습니다.

13 machine-learning neural-network deep-learning optimization gradient-descent

1

몇 개의 LSTM 셀을 사용해야합니까?

사용해야하는 최소, 최대 및 "합리적인"양의 LSTM 셀과 관련된 경험 법칙 (또는 실제 규칙)이 있습니까? 특히 TensorFlow 및 속성의 BasicLSTMCell 과 관련이 num_units있습니다. 분류 문제가 다음과 같이 정의되었다고 가정하십시오. t - number of time steps n - length of input vector in each time step m - length of output vector …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

4

함수가 매끄럽다면 왜 그라데이션 하강 속도가 빨라 집니까?

이제 "Scikit-Learn 및 TensorFlow를 사용한 실습 머신 러닝" 이라는 책을 읽었으며 11 장에는 ELU (지수 적 ReLU)에 대한 설명이 있습니다. 셋째,이 기능은 z = 0을 포함하여 모든 곳에서 부드럽습니다. z = 0만큼 좌우로 튀지 않기 때문에 그라데이션 하강 속도를 높이는 데 도움이됩니다. z수단은 상기 그래프에서 X 축. z < 0선에 …

10 deep-learning gradient-descent

1

목적 함수와 출력 레이어 활성화 기능 사이의 연결은 얼마나 유연합니까?

많은 신경망 패키지에서 목표 계층과 출력 계층의 활성화 기능이 최소화되도록 쌍을 이루는 것이 표준으로 보입니다. 예를 들어, 회귀에 사용되는 선형 출력 레이어의 경우 제곱 오차 목적 함수를 갖는 것이 표준 (및 종종 선택)입니다. 또 다른 일반적인 페어링은 로지스틱 출력 및 로그 손실 (또는 교차 엔트로피)입니다. 또 다른 하나는 softmax 및 …

10 neural-network gradient-descent

2

벡터 연산에 기초한 확률 적 경사 하강?

N 개의 샘플이있는 데이터 세트를 사용하여 확률 적 경사 하강 회귀 알고리즘을 훈련시키고 싶다고 가정 해 봅시다. 데이터 세트의 크기가 고정되어 있으므로 데이터를 T 번 재사용합니다. 각 반복 또는 "에포크"에서 전체 트레이닝 세트를 무작위로 재정렬 한 후 각 트레이닝 샘플을 정확히 한 번 사용합니다. 내 구현은 Python과 Numpy를 기반으로합니다. 따라서 …

10 python gradient-descent regression

2

학습률이 신경 네트워크의 가중치를 급등시키는 이유는 무엇입니까?

나는 약간의 연구를 위해 간단한 신경망을 작성하기 위해 tensorflow를 사용하고 있으며 훈련하는 동안 'nan'무게에 많은 문제가있었습니다. 최적화 프로그램 변경, 손실 변경, 데이터 크기 등과 같은 다양한 솔루션을 시도했지만 아무 소용이 없습니다. 마지막으로, 학습률의 변화가 나의 체중에 믿을 수없는 차이를 가져 왔다는 것을 알았습니다. 학습 속도 .001 (정말 보수적이라고 생각)을 사용하면 …

9 machine-learning python tensorflow optimization gradient-descent

«gradient-descent» 태그된 질문