«optimization» 태그된 질문

통계 내에서 최적화를 사용하려면이 태그를 사용하십시오.

2
로지스틱 회귀 설정에서 제곱 손실을 사용하면 어떻게됩니까?
장난감 데이터 세트에서 이진 분류를 수행하기 위해 제곱 손실을 사용하려고합니다. mtcars데이터 세트를 사용하고 있으며 갤런 당 마일과 무게를 사용 하여 전송 유형을 예측합니다. 아래 그림은 서로 다른 색상의 두 가지 유형의 전송 유형 데이터와 서로 다른 손실 함수로 생성 된 결정 경계를 보여줍니다. 제곱 손실은 여기서 는 기본 진리 레이블 …


1
“긴장 올가미”가 표준 올가미와 다른 이유는 무엇입니까?
데이터 세트 시작하여 올가미를 적용하고 솔루션 β L을 구하면 데이터 세트 ( X S , Y )에 올가미를 다시 적용 할 수 있습니다 . 여기서 S 는 0이 아닌 세트입니다. ''LLASO ''솔루션이라고 불리는 솔루션 β R L 을 얻기 위해 β L의 색인 (내가 틀렸다면 나를 교정하십시오!) 솔루션 β L …

1
GLM의 로그 가능성이 글로벌 최대 값으로 수렴을 보장합니까?
내 질문은 : 일반화 된 선형 모델 (GLM)이 전체 최대 값으로 수렴되도록 보장됩니까? 그렇다면 왜 그렇습니까? 또한, 볼록 함을 보장하기 위해 링크 기능에는 어떤 제약이 있습니까? GLM에 대한 나의 이해는 이들이 매우 비선형 우도 함수를 최대화한다는 것입니다. 따라서 여러 로컬 최대 값이 있고 수렴 할 매개 변수 세트가 최적화 알고리즘의 …

2
올바른 최적화 알고리즘을 선택하는 방법은 무엇입니까?
함수의 최소값을 찾아야합니다. http://docs.scipy.org/doc/scipy/reference/optimize.html 에서 문서 읽기 동일한 작업을 수행하는 최소 몇 가지 알고리즘이 있습니다. 어떤 것을 선택해야하는지 어떻게 알 수 있습니까? 나열된 알고리즘 중 일부 다운 힐 심플 렉스 알고리즘을 사용하여 함수를 최소화하십시오. BFGS 알고리즘을 사용하여 기능을 최소화하십시오. 비선형 켤레 그라디언트 알고리즘으로 함수를 최소화하십시오. Newton-CG 방법을 사용하여 기능 f를 …

2
혼합 모델에 기대 극대화가 중요한 이유는 무엇입니까?
혼합 모델 (가우스 혼합, 은닉 마르코프 모델 등)에 대한 기대 최대화 방법을 강조하는 문헌이 많이 있습니다. EM이 중요한 이유 EM은 최적화를 수행하는 방법 일 뿐이며 그라디언트 기반 방법 (그라데이션 디센트 또는 뉴턴 / 쿼이 뉴턴 방법) 또는 여기에서 논의 된 기타 그라디언트 프리 방법으로 널리 사용되지는 않습니다 . 또한 EM은 …

1
확률 적 경사 하강은 어떻게 표준 경사 하강에 비해 시간을 절약 할 수 있습니까?
표준 그라디언트 디센트는 전체 교육 데이터 세트에 대한 그라디언트를 계산합니다. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad 사전 정의 된 에포크 수에 대해 먼저 매개 변수 벡터 매개 변수를 사용하여 전체 데이터 세트에 대한 손실 함수의 기울기 벡터 weights_grad를 계산합니다. 대조적으로 …

1
Perceptron Rule vs. Gradient Descent vs Stochastic Gradient Descent 구현에 대한 설명
다른 Perceptron 구현을 약간 실험 해보고 "반복"을 올바르게 이해하고 있는지 확인하고 싶습니다. 로젠 블랏의 원래 퍼셉트론 규칙 내가 아는 한 Rosenblatt의 고전적인 퍼셉트론 알고리즘에서 가중치는 모든 훈련 예제를 통해 동시에 업데이트됩니다. Δ의 w( t + 1 )= Δ w( t )+ η( t a r ge t − a c …

2
손으로 ARIMA 추정
ARIMA 모델링 / Box Jenkins (BJ)에서 매개 변수가 어떻게 추정되는지 이해하려고합니다. 불행히도 내가 만난 책 중 어느 것도 Log-Likelihood 추정 절차와 같은 추정 절차를 자세하게 설명하지 않습니다. 매우 유용한 웹 사이트 / 교육 자료 를 찾았습니다 . 다음은 위에서 언급 한 소스의 방정식입니다. L L ( θ ) = − …

1
CNN이 사라지는 그라디언트 문제를 피하는 방법
나는 convoloutional 신경 네트워크에 대해 많은 것을 읽었으며 그들이 사라지는 기울기 문제를 어떻게 피하는지 궁금해하고있었습니다. 나는 딥 신념 네트워크가 단일 레벨 자동 인코더 또는 다른 사전 훈련 된 얕은 네트워크를 쌓아서이 문제를 피할 수 있다는 것을 알고 있지만 CNN에서 어떻게 피할 수 있는지 모르겠습니다. Wikipedia 에 따르면 : "위에서 언급 …

1
왜 glmer (family = binomial) 출력을 Gauss-Newton 알고리즘의 수동 구현과 일치시킬 수 없습니까?
lmer (실제로 glmer)의 출력을 장난감 이항 예제와 일치시키고 싶습니다. 나는 삽화를 읽었고 무슨 일이 일어나고 있는지 이해한다고 믿는다. 그러나 분명히 나는하지 않습니다. 막힌 후, 나는 무작위 효과의 관점에서 "진실"을 고쳤으며, 고정 된 효과 만 추정 한 후에 갔다. 아래 에이 코드를 포함시킵니다. 그것이 합법적임을 알기 위해 주석을 달아 + Z …

1
단일 ReLU가 ReLU를 배울 수없는 이유는 무엇입니까?
내 신경망에 대한 후속 조치로 유클리드 거리를 알 수조차 없으므로 나는 더 단순화하고 단일 ReLU (임의의 무게로)를 단일 ReLU로 훈련하려고했습니다. 이것은 가장 간단한 네트워크이지만 수렴하지 못하는 시간의 절반입니다. 초기 추측이 목표와 같은 방향에 있다면, 빠르게 학습하고 올바른 가중치 1로 수렴합니다. 초기 추측이 "뒤로"이면, 가중치 0에 갇히고 더 낮은 손실 영역으로 …

1
딥 러닝 용 Adam 최적화 프로그램에 바이어스 보정 용어를 포함시키는 것이 중요한 이유는 무엇입니까?
저는 Deep Learning 의 Adam 최적화 프로그램에 대해 읽었으며 Begnio, Goodfellow 및 Courtville 의 새 책 Deep Learning 에서 다음 문장을 보았습니다. Adam은 원점에서의 초기화를 설명하기 위해 1 차 모멘트 (모멘텀 항) 및 (비 중심) 2 차 모멘트의 추정치에 대한 바이어스 보정을 포함합니다. 이러한 바이어스 보정 항을 포함하는 주된 이유는 …

3
정규화 된 그라디언트 및 그라디언트 사용의 차이점
그래디언트 디센트 알고리즘의 일반적인 설정에는 여기서 은 현재 점이고 는 단계 크기이고 은 그래디언트입니다. 에서 평가되었습니다 . x n η g r a d i e n t x n x nxn+1=xn−η∗gradientxnxn+1=xn−η∗gradientxnx_{n+1} = x_{n} - \eta * gradient_{x_n}xnxnx_nηη\eta지r a d난 전자 N t를엑스엔gradientxngradient_{x_n}xnxnx_n 일부 알고리즘에서 사람들은 gradient 대신 normalized gradient를 …

1
L-BFGS는 어떻게 작동합니까?
이 논문의 목적은 정규화 된 로그 우도를 최대화하여 일부 매개 변수를 최적화하는 것이 었습니다. 그런 다음 부분 파생 상품을 계산합니다. 그리고 저자들은 많은 변수의 부드러운 함수를 최적화하기 위해 표준 유사-뉴턴 절차 인 L-BFGS를 사용하여 방정식을 최적화한다고 언급했습니다 (더 자세한 것은 아님). 어떻게 작동합니까?

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.