«optimization» 태그된 질문

통계에서 이것은 데이터의 일부 기능을 최대화하거나 최소화하여 모수의 추정량을 선택하는 것을 의미합니다. 하나의 매우 일반적인 예는 최대 가능성 추정 (MLE)이라고하는 관찰 된 데이터의 결합 밀도 (또는 질량 함수)를 최대화하는 추정기를 선택하는 것입니다.

8
학습률 선택
저는 현재 SGD역 전파를 사용하는 신경망에 대해 확률 적 그라디언트 디센트 (Stochastic Gradient Descent)를 구현 하고 있으며 그 목적을 이해하는 동안 학습률에 대한 값을 선택하는 방법에 대한 몇 가지 질문이 있습니다. 학습률은 하강 률을 지시하므로 오차 기울기의 모양과 관련이 있습니까? 그렇다면이 정보를 어떻게 사용하여 가치에 대한 결정을 내립니까? 어떤 종류의 …

4
새로운 관측 값을 사용할 수있는 경우 모델을 다시 훈련시켜야합니까?
따라서이 주제에 대한 문헌을 찾을 수 없었지만 생각할 가치가있는 것처럼 보입니다. 새로운 관찰이 가능한 경우 모델 교육 및 최적화에 대한 모범 사례는 무엇입니까? 예측이 저하되기 전에 모델 재 훈련주기 / 빈도를 결정하는 방법이 있습니까? 매개 변수가 집계 된 데이터에 대해 다시 최적화되면 과적 합입니까? 학습이 반드시 온라인 일 필요 는 …


4
경사 하강은 항상 최적으로 수렴합니까?
그래디언트 디센트가 최소로 수렴하지 않는 시나리오가 있는지 궁금합니다. 그래디언트 디센트가 항상 전역 최적으로 수렴되는 것은 아닙니다. 또한 계단 크기가 너무 클 경우 최적에서 벗어날 수 있다는 것도 알고 있습니다. 그러나, 그것이 어떤 최적에서 벗어나면 결국 다른 최적으로 갈 것 같습니다. 따라서, 경사 하강은 국부적 또는 세계적 최적으로 수렴되도록 보장 될 …

3
신경망 훈련을위한 옵티 마이저 선택 지침
나는 잠시 동안 신경망을 사용하고 있습니다. 그러나 내가 끊임없이 어려움을 겪고있는 한 가지는 네트워크 교육을위한 최적화 프로그램을 선택하는 것입니다 (backprop 사용). 내가 일반적으로하는 것은 하나 (예 : 표준 SGD)로 시작한 다음 다른 사람들을 거의 임의로 시도합니다. 좋은 옵티 마이저를 찾는 더 나은 (그리고 덜 무작위적인) 접근법이 있는지 궁금합니다. SGD (운동량 …

2
딥 러닝의 로컬 최소 점 vs 안 장점
Andrew Ng (안타깝게도 더 이상 찾을 수없는 비디오)에서 딥 러닝 문제에서 로컬 최소값에 대한 이해가 이제 고차원 공간에서 문제가 적은 것으로 간주된다는 의미에서 어떻게 변화했는지에 대한 이야기를 들었습니다. 딥 러닝) 임계점은 로컬 최소값보다 안 장점 또는 고원 일 가능성이 높습니다. 나는 "모든 지역 최소값이 세계 최소값"이라는 가정에 대해 논의한 논문 …

2
신경망 최적화에 유전자 알고리즘이 사용되지 않는 이유는 무엇입니까?
내가 이해 한 바에 따르면, 유전자 알고리즘은 다목적 최적화를위한 강력한 도구입니다. 또한 신경망 (특히 신경망)을 훈련하는 것은 어렵고 많은 문제 (볼록하지 않은 비용 함수-로컬 최소, 사라짐 및 폭발 그라디언트 등)가 있습니다. 또한 GA로 개념적으로 NN을 교육하는 것이 가능합니다. 나는 그들이 왜 실제로 사용되지 않는지 궁금했다. 성능 문제입니까?



1
랜덤 포레스트를 사용하여 샘플링 할 기능 수
"통계 학습의 요소" 를 인용 한 Wikipedia 페이지 는 다음과 같이 말합니다. 일반적으로 피처 의 분류 문제의 경우 ⌊ √p피p 각 분할에 p each기능이 사용됩니다.⌊p–√⌋⌊p⌋\lfloor \sqrt{p}\rfloor 나는 이것이 상당히 교육받은 추측이며 아마도 경험적 증거로 확인되었을 것임을 이해하지만, 제곱근을 선택 해야하는 다른 이유가 있습니까? 거기에 통계적인 현상이 있습니까? 이것이 어떻게 오차의 …

1
R의 MLE에 대한 피셔 득점 v / s 좌표 하강
R 기본 함수 glm()는 MLE에 Fishers Scoring glmnet을 사용하는 반면 좌표 하강 법을 사용하여 동일한 방정식을 해결하는 것으로 보입니다. Fisher Scoring이 다른 행렬 연산 외에도 2 차 미분 행렬을 계산하므로 좌표 강하는 Fisher Scoring보다 시간 효율적입니다. 좌표 하강은 O (np) 시간에 동일한 작업을 수행 할 수 있지만 수행 비용이 많이 …

3
과학 컴퓨팅을위한 최고의 언어
폐쇄되었습니다 . 이 질문은 더 집중되어야 합니다. 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 한 가지 문제에만 집중할 수 있도록 질문을 업데이트하십시오 . 휴일 오년 전에 . 대부분의 언어에는 몇 가지 과학 컴퓨팅 라이브러리가 있습니다. 파이썬은 Scipy Rust 있다 SciRust C++이 등 여러 가지 ViennaCL와Armadillo …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

2
학습률이 신경 네트워크의 가중치를 급등시키는 이유는 무엇입니까?
나는 약간의 연구를 위해 간단한 신경망을 작성하기 위해 tensorflow를 사용하고 있으며 훈련하는 동안 'nan'무게에 많은 문제가있었습니다. 최적화 프로그램 변경, 손실 변경, 데이터 크기 등과 같은 다양한 솔루션을 시도했지만 아무 소용이 없습니다. 마지막으로, 학습률의 변화가 나의 체중에 믿을 수없는 차이를 가져 왔다는 것을 알았습니다. 학습 속도 .001 (정말 보수적이라고 생각)을 사용하면 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.