데이터 과학 optimization

8

저는 현재 SGD역 전파를 사용하는 신경망에 대해 확률 적 그라디언트 디센트 (Stochastic Gradient Descent)를 구현 하고 있으며 그 목적을 이해하는 동안 학습률에 대한 값을 선택하는 방법에 대한 몇 가지 질문이 있습니다. 학습률은 하강 률을 지시하므로 오차 기울기의 모양과 관련이 있습니까? 그렇다면이 정보를 어떻게 사용하여 가치에 대한 결정을 내립니까? 어떤 종류의 …

85 machine-learning neural-network deep-learning optimization hyperparameter

4

새로운 관측 값을 사용할 수있는 경우 모델을 다시 훈련시켜야합니까?

따라서이 주제에 대한 문헌을 찾을 수 없었지만 생각할 가치가있는 것처럼 보입니다. 새로운 관찰이 가능한 경우 모델 교육 및 최적화에 대한 모범 사례는 무엇입니까? 예측이 저하되기 전에 모델 재 훈련주기 / 빈도를 결정하는 방법이 있습니까? 매개 변수가 집계 된 데이터에 대해 다시 최적화되면 과적 합입니까? 학습이 반드시 온라인 일 필요 는 …

28 machine-learning predictive-modeling optimization training

1

미니 배치의 크기를 선택하기위한 규칙이 있습니까?

신경망을 훈련 할 때 하나의 하이퍼 파라미터는 미니 배치의 크기입니다. 일반적인 배치는 미니 배치 당 32, 64 및 128 요소입니다. 미니 배치가 얼마나 큰 규칙 / 지침이 있습니까? 교육에 대한 영향을 조사하는 출판물이 있습니까?

21 neural-network deep-learning convnet optimization

4

경사 하강은 항상 최적으로 수렴합니까?

그래디언트 디센트가 최소로 수렴하지 않는 시나리오가 있는지 궁금합니다. 그래디언트 디센트가 항상 전역 최적으로 수렴되는 것은 아닙니다. 또한 계단 크기가 너무 클 경우 최적에서 벗어날 수 있다는 것도 알고 있습니다. 그러나, 그것이 어떤 최적에서 벗어나면 결국 다른 최적으로 갈 것 같습니다. 따라서, 경사 하강은 국부적 또는 세계적 최적으로 수렴되도록 보장 될 …

21 machine-learning neural-network deep-learning optimization gradient-descent

3

신경망 훈련을위한 옵티 마이저 선택 지침

나는 잠시 동안 신경망을 사용하고 있습니다. 그러나 내가 끊임없이 어려움을 겪고있는 한 가지는 네트워크 교육을위한 최적화 프로그램을 선택하는 것입니다 (backprop 사용). 내가 일반적으로하는 것은 하나 (예 : 표준 SGD)로 시작한 다음 다른 사람들을 거의 임의로 시도합니다. 좋은 옵티 마이저를 찾는 더 나은 (그리고 덜 무작위적인) 접근법이 있는지 궁금합니다. SGD (운동량 …

18 neural-network optimization backpropagation

2

딥 러닝의 로컬 최소 점 vs 안 장점

Andrew Ng (안타깝게도 더 이상 찾을 수없는 비디오)에서 딥 러닝 문제에서 로컬 최소값에 대한 이해가 이제 고차원 공간에서 문제가 적은 것으로 간주된다는 의미에서 어떻게 변화했는지에 대한 이야기를 들었습니다. 딥 러닝) 임계점은 로컬 최소값보다 안 장점 또는 고원 일 가능성이 높습니다. 나는 "모든 지역 최소값이 세계 최소값"이라는 가정에 대해 논의한 논문 …

18 machine-learning deep-learning optimization convergence

2

신경망 최적화에 유전자 알고리즘이 사용되지 않는 이유는 무엇입니까?

내가 이해 한 바에 따르면, 유전자 알고리즘은 다목적 최적화를위한 강력한 도구입니다. 또한 신경망 (특히 신경망)을 훈련하는 것은 어렵고 많은 문제 (볼록하지 않은 비용 함수-로컬 최소, 사라짐 및 폭발 그라디언트 등)가 있습니다. 또한 GA로 개념적으로 NN을 교육하는 것이 가능합니다. 나는 그들이 왜 실제로 사용되지 않는지 궁금했다. 성능 문제입니까?

13 neural-network optimization genetic-algorithms

4

Gradient Descent는 모든 옵티마이 저의 중심입니까?

Gradient descent가 Adam, Adagrad, RMSProp 및 기타 여러 옵티 마이저와 같은 옵티 마이저에서 사용되는 주요 알고리즘인지 알고 싶습니다.

13 machine-learning neural-network deep-learning optimization gradient-descent

2

항상 ADAM 최적화 기술을 사용하지 않는 이유는 무엇입니까?

보인다 적응 모멘트 추정 (아담) 최적화 거의 항상 (더 빠르고 안정적으로 글로벌 최소 도달) 신경망을 훈련 비용 함수를 최소화 할 때 잘 작동합니다. 왜 항상 아담을 사용하지 않습니까? RMSProp 또는 모멘텀 옵티 마이저를 사용하는 것이 왜 귀찮습니까?

13 neural-network optimization

1

랜덤 포레스트를 사용하여 샘플링 할 기능 수

"통계 학습의 요소" 를 인용 한 Wikipedia 페이지 는 다음과 같이 말합니다. 일반적으로 피처 의 분류 문제의 경우 ⌊ √p피p 각 분할에 p each기능이 사용됩니다.⌊p–√⌋⌊p⌋\lfloor \sqrt{p}\rfloor 나는 이것이 상당히 교육받은 추측이며 아마도 경험적 증거로 확인되었을 것임을 이해하지만, 제곱근을 선택 해야하는 다른 이유가 있습니까? 거기에 통계적인 현상이 있습니까? 이것이 어떻게 오차의 …

13 statistics random-forest optimization evaluation sampling

1

R의 MLE에 대한 피셔 득점 v / s 좌표 하강

R 기본 함수 glm()는 MLE에 Fishers Scoring glmnet을 사용하는 반면 좌표 하강 법을 사용하여 동일한 방정식을 해결하는 것으로 보입니다. Fisher Scoring이 다른 행렬 연산 외에도 2 차 미분 행렬을 계산하므로 좌표 강하는 Fisher Scoring보다 시간 효율적입니다. 좌표 하강은 O (np) 시간에 동일한 작업을 수행 할 수 있지만 수행 비용이 많이 …

11 machine-learning r algorithms optimization

3

과학 컴퓨팅을위한 최고의 언어

폐쇄되었습니다 . 이 질문은 더 집중되어야 합니다. 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 한 가지 문제에만 집중할 수 있도록 질문을 업데이트하십시오 . 휴일 오년 전에 . 대부분의 언어에는 몇 가지 과학 컴퓨팅 라이브러리가 있습니다. 파이썬은 Scipy Rust 있다 SciRust C++이 등 여러 가지 ViennaCL와Armadillo …

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

2

학습률이 신경 네트워크의 가중치를 급등시키는 이유는 무엇입니까?

나는 약간의 연구를 위해 간단한 신경망을 작성하기 위해 tensorflow를 사용하고 있으며 훈련하는 동안 'nan'무게에 많은 문제가있었습니다. 최적화 프로그램 변경, 손실 변경, 데이터 크기 등과 같은 다양한 솔루션을 시도했지만 아무 소용이 없습니다. 마지막으로, 학습률의 변화가 나의 체중에 믿을 수없는 차이를 가져 왔다는 것을 알았습니다. 학습 속도 .001 (정말 보수적이라고 생각)을 사용하면 …

9 machine-learning python tensorflow optimization gradient-descent

«optimization» 태그된 질문