«regularization» 태그된 질문

모델 피팅 프로세스에서 추가 구속 조건 (일반적으로 복잡성에 대한 페널티) 포함. 과적 합을 방지하고 예측 정확도를 향상시키는 데 사용됩니다.



3
올가미가 변수 선택을 제공하는 이유는 무엇입니까?
나는 통계 학습의 요소를 읽고 있었고 , 올가미가 변수 선택을 제공하고 능선 회귀가 그렇지 않은 이유를 알고 싶습니다. 두 방법 모두 잔차 제곱합을 최소화하고 매개 변수 의 가능한 값을 제한합니다 . 올가미의 경우 제약 조건은 이며, 능선의 경우 일부 입니다.ββ\beta||β||1≤t||β||1≤t||\beta||_1 \le t||β||2≤t||β||2≤t||\beta||_2 \le tttt 나는 책에서 다이아몬드 대 타원 그림을 …

5
일반 영어로 정규화 란 무엇입니까?
다른 기사와 달리, 이 주제에 대한 wikipedia 항목은 수학자가 아닌 사람이 읽을 수 없음을 발견했습니다 . 규칙이 적은 모델을 선호한다는 기본 아이디어를 이해했습니다. 내가 얻지 못하는 것은 규칙 집합에서 '정규화 점수'로 어떻게 넘어가 는가? 간단한 정규화 방법을 설명 할 수 있습니까? 통계 거래 시스템을 분석하는 데 관심이 있습니다. 정규화를 적용하여 …


2
수축이 작동하는 이유는 무엇입니까?
모형 선택의 문제를 해결하기 위해 많은 방법 (LASSO, 능선 회귀 등)이 예측 변수의 계수를 0으로 줄입니다. 왜 이것이 예측 능력을 향상시키는 지에 대한 직관적 인 설명을 찾고 있습니다. 변수의 실제 효과가 실제로 매우 큰 경우, 왜 매개 변수를 축소해도 예측이 더 나 빠지지 않습니까?

7
정규화 용어가 비용 함수에 (더하기 등이 아닌) 왜 추가됩니까?
정규화를 사용할 때마다 다음과 같은 비용 함수와 같은 비용 함수에 추가됩니다. J(θ)=12(y−θXT)(y−θXT)T+α∥θ∥22J(θ)=12(y−θXT)(y−θXT)T+α‖θ‖22 J(\theta)=\frac 1 2(y-\theta X^T)(y-\theta X^T)^T+\alpha\|\theta\|_2^2 최소화하기 때문에 직관적 인 의미가 있습니다. 비용 함수는 오류 (왼쪽 항)를 최소화하고 동시에 계수의 크기 (오른쪽 항)를 최소화하는 것 (또는 최소한 두 최소화의 균형을 잡는 것)을 의미합니다. 내 질문은 왜이 정규화 용어 α∥θ∥22α‖θ‖22\alpha\|\theta\|_2^2 …

6
능선 회귀는 높은 차원에서 쓸모가 없습니까 ( )? OLS가 어떻게 과적 합에 실패 할 수 있습니까?
예측 변수 및 표본 크기 과 함께 좋은 오래된 회귀 문제를 고려하십시오 . 일반적인 지혜는 OLS 추정기가 능선 회귀 추정기에 의해 초과 적합하고 일반적으로 능가한다는 것입니다.최적의 정규화 매개 변수 를 찾기 위해 교차 유효성 검사를 사용하는 것이 표준 입니다. 여기에서는 10 배 CV를 사용합니다. 설명 업데이트 : 일 때 "OLS …


3
로지스틱 회귀 분석을위한 정규화 방법
Ridge, Lasso, ElasticNet과 같은 방법을 사용한 정규화는 선형 회귀에 매우 일반적입니다. 다음을 알고 싶었습니다.이 방법이 로지스틱 회귀에 적용 가능합니까? 그렇다면 로지스틱 회귀 분석에 사용해야하는 방식에 차이가 있습니까? 이러한 방법을 적용 할 수없는 경우 어떻게 로지스틱 회귀를 정규화합니까?

1
신경망 : 체중 변화 운동량 및 체중 감소
Momentum 는 연속 반복에 따른 무게 변화의 변동을 줄이는 데 사용됩니다.αα\alpha Δωi(t+1)=−η∂E∂wi+αΔωi(t),Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), 여기서 는 오류 함수입니다. -가중치 벡터, 학습률.E(w)E(w)E({\bf w})ww{\bf w}ηη\eta 체중 감량 는 체중 변화에 불이익을줍니다 :λλ\lambda Δωi(t+1)=−η∂E∂wi−ληωiΔωi(t+1)=−η∂E∂wi−ληωi\Delta\omega_i(t+1) =- \eta\frac{\partial E}{\partial w_i} - \lambda\eta\omega_i 문제는 역 전파 동안 두 가지 …

5
능선 회귀 솔루션을 도출하는 방법은 무엇입니까?
능선 회귀에 대한 솔루션 도출에 문제가 있습니다. 정규화 용어가없는 회귀 솔루션을 알고 있습니다. β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. 그러나 L2 항 를 비용 함수에 추가 한 후 솔루션은 어떻게됩니까?λ∥β∥22λ‖β‖22\lambda\|\beta\|_2^2 β=(XTX+λI)−1XTy.β=(XTX+λI)−1XTy.\beta = (X^TX + \lambda I)^{-1}X^Ty.

3
교차 검증을 사용할 때 하나의 표준 오류 규칙에 대한 경험적 근거
parsimony에 찬성하여 하나의 표준 오류 규칙의 사용을 정당화하는 경험적 연구가 있습니까? 분명히 그것은 데이터의 데이터 생성 프로세스에 달려 있지만, 대량의 데이터 세트를 분석하는 것은 매우 흥미로운 읽기 일 것입니다. "한 가지 표준 오류 규칙"은 교차 유효성 검사를 통해 (또는 일반적으로 임의 추출 기반 절차를 통해) 모델을 선택할 때 적용됩니다. 복잡성 …

7
정규화로 인해 데이터에 대한 Deep Neural Nets 기아가 해결되지 않는 이유는 무엇입니까?
일반적으로 Neural Networks 및 Deep Neural Networks와 관련하여 자주 제기되는 문제는 "데이터가 배고프다"는 것입니다. 즉, 큰 데이터 세트가 없으면 제대로 수행되지 않습니다. 네트워크 훈련을 위해 내 이해는 이것이 NNets, 특히 Deep NNets가 많은 자유도를 가지고 있기 때문입니다. 따라서 모델로서 NNet에는 매우 많은 수의 매개 변수가 있으며, 모델의 매개 변수 수가 …


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.