«optimization» 태그된 질문

통계 내에서 최적화를 사용하려면이 태그를 사용하십시오.

4
와 이블 분포에 대한 EM 최대 가능성 추정
참고 : 기술적 인 이유로 본인의 게시물을 게시 할 수없는 이전 학생으로부터 질문을 게시하고 있습니다. pdf Weibull 분포 의 iid 표본 x1,…,xnx1,…,xnx_1,\ldots,x_n 을 고려하면 유용한 누락 변수 표현 따라서 대신 MLE을 찾는 데 사용할 수있는 관련 EM (예상 최대화) 알고리즘 간단한 수치 최적화?fk(x)=kxk−1e−xkx>0fk(x)=kxk−1e−xkx>0 f_k(x) = k x^{k-1} e^{-x^k} \quad x>0 …

4
최적화 알고리즘이 다른 최적화 문제로 정의되는 이유는 무엇입니까?
기계 학습을위한 최적화 기술에 대한 연구를하고 있지만 다른 최적화 문제와 관련하여 많은 수의 최적화 알고리즘이 정의되어 있다는 사실에 놀랐습니다. 다음은 몇 가지 예를 보여줍니다. 예를 들어 https://arxiv.org/pdf/1511.05133v1.pdf 모든 것이 멋지고 좋아 보이지만 업데이트에 가 있습니다 . 대해 해결되는 알고리즘은 무엇 입니까? 우리는 알지 못합니다. 마술처럼 우리는 내부 벡터가 최소가되도록 최소화 …

2
기계 학습 기술은 "근사 알고리즘"입니까?
최근 cstheory stackexchange에 대한 ML과 같은 질문이 있었고 Powell의 방법, 기울기 강하, 유전자 알고리즘 또는 기타 "근사 알고리즘"을 추천하는 답변을 게시했습니다 . 한 의견에서 누군가이 방법이 "추론"이 아니라 "근사 알고리즘"이라고 말했으며 이론상 최적에 가깝지 않은 경우가 많았습니다 ( "자주 발생하는 지역적 최소"때문에). 다른 사람들도 그것에 동의합니까? 또한 검색 공간의 많은 …

4
MLE 문제에 대한 최대화가 항상 있습니까?
최대 (로그) 우도 추정 문제에 항상 최대 값이 있는지 궁금합니다. 다시 말해서, MLE 문제에 최대화가없는 분포와 매개 변수가 있습니까? 내 질문은 MLE의 비용 함수 (가능성 또는 로그 가능성, 의도 된 것인지 확실하지 않음)가 항상 오목하고 항상 최대화되어 있다는 엔지니어의 주장에서 비롯됩니다. 감사합니다.

3
좌표 대 경사 하강
Coordinate Descent 및 Gradient Descent 두 알고리즘의 다양한 사용 사례가 무엇인지 궁금합니다 . 좌표 하강은 평활하지 않은 함수에 문제가 있지만 SVM 및 LASSO와 같은 널리 사용되는 알고리즘에 사용됩니다. 그러나 그라디언트 디센트는 특히 ANN의 부활과 다른 많은 기계 학습 작업에 더 널리 사용되는 것으로 생각됩니다. 내 질문은 : 어떤 유형의 문제가 …

1
신경망의 비용 함수가 볼록하지 않은 이유는 무엇입니까?
여기에는 비슷한 스레드가 있습니다 ( 신경 네트워크의 비용 함수는 볼록하지 않습니까? ). 나는 거기에 대한 답변의 요점을 이해할 수 없었으며 이것을 다시 요구하는 이유는 몇 가지 문제를 분명히 할 것입니다. 제곱 차분 비용 함수의 합계를 사용하는 경우 궁극적으로 형식의 것을 최적화합니다.ΣNi=1(yi−yi^)2Σi=1N(yi−yi^)2 \Sigma_{i=1}^{N}(y_i - \hat{y_i})^2 여기서 는 훈련 중 실제 레이블 …

4
최대 가능성을 사용하여 다변량 정규 모형을 피팅 할 때 공분산 행렬의 속성을 보장하는 방법은 무엇입니까?
다음 모델이 있다고 가정하십시오. yi=f(xi,θ)+εiyi=f(xi,θ)+εiy_i=f(x_i,\theta)+\varepsilon_i 여기서 yi∈RKyi∈RKy_i\in \mathbb{R}^K , xixix_i 는 설명 변수로 구성된 벡터이고, θθ\theta 는 비선형 함수 fff 및 의 매개 변수입니다 εi∼N(0,Σ)εi∼N(0,Σ)\varepsilon_i\sim N(0,\Sigma). 여기서 ΣΣ\Sigma 자연스럽게 K×KK×KK\times K 행렬입니다. 목표는 일반적으로 θθ\theta 및 를 추정하는 것입니다 ΣΣ\Sigma. 확실한 선택은 최대 가능성 방법입니다. 이 모델에 대한 로그 우도 …

3
최대 가능성과 예상 가능성이 아닌 이유는 무엇입니까?
모수의 최대 우도 추정값을 얻는 것이 왜 그렇게 일반적입니까? 그러나 예상 우도 모수 추정치 에 대해 거의 듣지 못합니다 (즉, 우도 함수 모드 가 아닌 예상 값을 기준으로 )? 이것은 주로 역사적 이유나보다 실질적인 기술적 또는 이론적 인 이유 때문입니까? 최대 우도 추정치보다는 예상 우도 추정치를 사용하는 데 상당한 장점 …

2
학습 알고리즘 중에서 선택하는 방법
일부 훈련 데이터를 기반으로 레코드를 2 가지 범주 (참 / 거짓)로 분류하는 프로그램을 구현해야하며 어떤 알고리즘 / 방법론을보고 있는지 궁금합니다. 인공 신경망, 유전자 알고리즘, 기계 학습, 베이지안 최적화 등 중에서 선택할 수있는 많은 것들이 있으며, 어디서부터 시작 해야할지 모르겠습니다. 내 질문은 : 문제에 사용해야하는 학습 알고리즘을 어떻게 선택해야합니까? 이것이 도움이된다면 …

1
왜 로지스틱 회귀가 완벽한 분리 사례에서 작동하지 않는지에 대한 직관적 인 설명이 있습니까? 왜 정규화를 추가하면 문제가 해결됩니까?
로지스틱 회귀 분석에서 완벽한 분리에 대한 많은 토론이 있습니다. 예를 들어 R의 로지스틱 회귀는 완벽한 분리 (Hauck-Donner 현상)를 초래했습니다. 이제 뭐? 및 로지스틱 회귀 모델은 수렴하지 않습니다 . 개인적으로 여전히 문제가되는 이유와 정규화를 추가하면 문제가 해결되는 것은 직관적이지 않다고 생각합니다. 애니메이션을 만들어서 도움이 될 것이라고 생각합니다. 따라서 자신의 질문을 게시하고 …

7
SPD (Symmetric Positive Definite) 행렬이 중요한 이유는 무엇입니까?
SPD (symmetric positive definite) 행렬의 정의를 알고 있지만 더 이해하고 싶습니다. 왜 그렇게 직관적으로 중요합니까? 여기 내가 아는 것입니다. 또 뭐요? 주어진 데이터에 대해 공분산 행렬은 SPD입니다. 공분산 행렬은 중요한 측정 항목 입니다. 직관적 인 설명 은이 게시물 을 참조하십시오 . 이차 형태 A가 SPD12엑스⊤A x - b⊤x + c12x⊤Ax−b⊤x+c\frac …

2
신경망에서 왜 다른 메타 휴리스틱보다 그라데이션 방법을 사용합니까?
깊고 얕은 신경망을 훈련 할 때 왜 다른 메타 휴리스틱 스와 달리 그래디언트 방법 (예 : 그래디언트 디센트, 네 스테 로프, 뉴턴-라프 슨)이 일반적으로 사용됩니까? 메타 휴리스틱 스 (metaheuristics) 란 로컬 소소한 상황에 빠지지 않도록 개발 된 시뮬레이션 어닐링, 개미 식민지 최적화 등과 같은 방법을 의미합니다.

2
LSTM에 가장 적합한 최적화 방법은 무엇입니까?
나는 theano를 사용하여 LSTM을 실험 해 왔으며 LSTM에 가장 적합한 최적화 방법 (SGD, Adagrad, Adadelta, RMSprop, Adam 등)이 궁금하십니까? 이 주제에 관한 연구 논문이 있습니까? 또한 대답은 LSTM을 사용하는 응용 프로그램 유형에 따라 달라 집니까? 그렇다면 텍스트 분류를 위해 LSTM을 사용하고 있습니다 (텍스트는 먼저 단어 벡터로 변환됩니다). 마지막으로, RNN에 대한 …

3
유전자 알고리즘은 언제 최적화에 적합한가?
유전자 알고리즘은 최적화 방법의 한 형태입니다. 확률 적 구배 하강과 그 파생물은 함수 최적화를위한 최선의 선택이지만 종종 유전자 알고리즘이 여전히 사용됩니다. 예를 들어, NASA의 ST5 우주선의 안테나 는 유전자 알고리즘으로 만들어졌습니다. 유전자 최적화 방법이 더 일반적인 경사 하강 방법보다 더 나은 선택은 언제입니까?

2
규범의 맥락에서 수퍼 스크립트 2 아래 첨자 2의 의미는 무엇입니까?
최적화가 처음입니다. 나는 규범의 오른쪽에 첨자 2와 첨자 2가있는 방정식 을 계속 봅니다 . 예를 들어 여기에 최소 제곱 방정식이 있습니다 분||Ax−b||22||Ax−b||22 ||Ax-b||^2_2 나는 위첨자 2를 이해한다고 생각한다. 그것은 규범의 가치를 제곱하는 것을 의미한다. 그러나 아래 첨자 2는 무엇입니까? 이 방정식을 어떻게 읽어야합니까?

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.