«optimization» 태그된 질문

통계 내에서 최적화를 사용하려면이 태그를 사용하십시오.

8
뉴턴의 방법이 기계 학습에 널리 사용되지 않는 이유는 무엇입니까?
이것은 잠시 동안 나를 괴롭 혔으며 온라인에서 만족스러운 답변을 찾을 수 없으므로 여기에 간다. 볼록 최적화에 대한 일련의 강의를 검토 한 후, Newton의 방법은 솔루션에 대한 보증을 제공 할 수 있고, 불변이고, 대부분 수렴하기 때문에, 전 세계적으로 최적의 솔루션을 찾기 위해 기울기 하강보다 훨씬 우수한 알고리즘 인 것 같습니다. 훨씬 …


6
역 전파없이 신경망을 훈련시킬 수 있습니까?
많은 신경망 서적과 자습서는 백 그라디언트 알고리즘에 많은 시간을 소비하는데, 이는 기본적으로 그래디언트를 계산하는 도구입니다. ~ 10K 매개 변수 / 무게로 모델을 작성한다고 가정 해 봅시다. 그라디언트 프리 최적화 알고리즘을 사용하여 최적화를 실행할 수 있습니까? 수치 구배 계산이 너무 느리다고 생각하지만 Nelder-Mead, Simulated Annealing 또는 Genetic Algorithm과 같은 다른 방법은 …

2
탄화 활성화 기능 대 시그 모이 드 활성화 기능
tanh 활성화 기능은 다음과 같습니다. tanh(x)=2⋅σ(2x)−1tanh(x)=2⋅σ(2x)−1tanh \left( x \right) = 2 \cdot \sigma \left( 2 x \right) - 1 여기서 , 시그 모이 드 함수로서 정의된다 : .σ(x)σ(x)\sigma(x) σ(x)=ex1+exσ(x)=ex1+ex\sigma(x) = \frac{e^x}{1 + e^x} 질문 : 이 두 가지 활성화 기능 (tanh vs. sigma)을 사용하는 것이 정말 중요합니까? 어떤 경우에 어떤 …

7
확률 대신 최대 로그 확률을 최적화해야하는 이유
당신은 어떤 확률 공식화 수있는 대부분의 기계 학습 작업에서 극대화해야한다, 우리는 실제로 로그 확률 최적화 것 대신 일부 매개 변수에 대한 확률의 . 예를 들어 최대 우도 훈련에서는 일반적으로 로그 우도입니다. 일부 그라디언트 방법 으로이 작업을 수행 할 때 요인이 있습니다.ppplogplog⁡p\log pθθ\theta ∂logp∂θ=1p⋅∂p∂θ∂log⁡p∂θ=1p⋅∂p∂θ \frac{\partial \log p}{\partial \theta} = \frac{1}{p} \cdot …

7
비용 함수 평가가 느린 경우 최적화
그라디언트 디센트 및 기타 여러 방법은 비용 함수에서 국소 최소값을 찾는 데 유용합니다. 수치 적이든 분석적 으로든 각 시점에서 비용 함수를 신속하게 평가할 수있을 때 효율적입니다. 이상한 상황 인 것 같습니다. 내 비용 함수의 각 평가는 비싸다. 지상 진실 표면에 대해 3D 표면을 최소화하는 일련의 매개 변수를 찾으려고합니다. 매개 변수를 …

5
PCA가 거리 문제가있는 기하학적 문제에서 선형 대수 문제로 변하는 방법에 대한 직관적 설명은 무엇입니까?
나는 다양한 튜토리얼과 (같은 질문을 포함 PCA에 대해 많이 읽은 이 하나 , 이 하나 , 이 하나 , 그리고 이 일을 ). PCA가 최적화하려는 기하학적 문제는 나에게 분명합니다. PCA는 재구성 (투영) 오류를 최소화하여 첫 번째 주요 구성 요소를 찾으려고합니다. 내가 처음 읽을 때, 나는 선형 회귀와 같은 것을 즉시 …

4
운동량 기반 경사 하강과 Nesterov의 가속 경사 하강의 차이점은 무엇입니까?
운동량 기반 경사 하강은 다음과 같이 작동합니다. v=self.momentum∗m−lr∗gv=self.momentum∗m−lr∗gv=self.momentum*m-lr*g 여기서 은 이전 가중치 업데이트이고 는 매개 변수 대한 현재 경사 , 은 학습 속도, 은 상수입니다.g p l r s e l f . m o m e n t u mmmmgggppplrlrlrself.momentumself.momentumself.momentum 피n 개의 전자 w= p + v = p …


1
확률 적 구배 하강의 Adam 방법은 어떻게 작동합니까?
신경망 훈련을위한 기본 그래디언트 디센트 알고리즘에 익숙합니다. 나는 Adam : ADAM : 확률 적 최적화를위한 방법을 제안하는 논문을 읽었다 . 나는 적어도 약간의 통찰력을 얻었지만 , 논문은 전체적으로 나에게 너무 높은 수준으로 보입니다. 예를 들어, 비용 함수 는 종종 많은 다른 함수들의 합이므로 그 값을 최적화하기 위해 방대한 양의 계산이 …

1
신경망 : 체중 변화 운동량 및 체중 감소
Momentum 는 연속 반복에 따른 무게 변화의 변동을 줄이는 데 사용됩니다.αα\alpha Δωi(t+1)=−η∂E∂wi+αΔωi(t),Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), 여기서 는 오류 함수입니다. -가중치 벡터, 학습률.E(w)E(w)E({\bf w})ww{\bf w}ηη\eta 체중 감량 는 체중 변화에 불이익을줍니다 :λλ\lambda Δωi(t+1)=−η∂E∂wi−ληωiΔωi(t+1)=−η∂E∂wi−ληωi\Delta\omega_i(t+1) =- \eta\frac{\partial E}{\partial w_i} - \lambda\eta\omega_i 문제는 역 전파 동안 두 가지 …

5
실제 하이퍼 파라미터 최적화 : 랜덤 대 그리드 검색
저자는 현재 Bengio와 Bergsta의 Hyper-Parameter Optimization에 대한 Random Search [1]를 진행하고 있는데, 여기서 저자는 거의 동일한 성능을 달성하는 데있어 그리드 검색보다 랜덤 검색이 더 효율적이라고 주장합니다. 내 질문은 : 여기 사람들이 그 주장에 동의합니까? 내 작품에서 나는 무작위 검색을 쉽게 수행 할 수있는 도구가 없기 때문에 그리드 검색을 주로 사용했습니다. …

1
글 머가 최대 가능성을 얻지 못하는 이유는 무엇입니까 (추가적인 일반 최적화를 적용하여 확인)?
수치 유도 MLE 의의 GLMM가 실제로 어렵고, 나는 알고있다, 우리는 (사용, 예를 들면 무력 최적화를 사용하지 않아야 optim하는 간단한 방식으로). 그러나 내 교육 목적으로 모델을 올바르게 이해하기 위해 노력하고 싶습니다 (아래 코드 참조). 나는에서 일관되지 않은 결과를 얻는다는 것을 알았습니다 glmer(). 특히, glmer내가 작성한 가능성 함수에 따라 MLE을 초기 값으로 …

3
SVM과 로지스틱 회귀 비교
누군가 SVM 또는 LR을 언제 선택할지에 대한 직감을 줄 수 있습니까? 나는 두 목표의 초평면 학습의 최적화 기준 사이의 차이점이 무엇인지에 대한 직관을 이해하고 싶습니다. 각 목표는 다음과 같습니다. SVM : 가장 가까운 지원 벡터 사이의 마진을 최대화하려고 LR : 사후 클래스 확률 최대화 SVM과 LR의 선형 피처 공간을 고려해 …

5
CV / Bootstrap을 사용하여 기계 학습 알고리즘을 훈련하여 과적 합할 수 있습니까?
이 질문은 결정적인 대답을 얻기에는 너무 개방적 일 수 있지만, 그렇지 않을 수 있습니다. SVM, GBM, 랜덤 포레스트 등과 같은 머신 러닝 알고리즘은 일반적으로 일부 경험 법칙을 넘어서 각 데이터 세트에 맞게 조정해야하는 자유 매개 변수를 갖습니다. 이것은 일반적으로 최상의 일반화 오류를 제공하는 매개 변수 세트에 맞추기 위해 일종의 리샘플링 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.