«regularization» 태그된 질문

모델 피팅 프로세스에서 추가 구속 조건 (일반적으로 복잡성에 대한 페널티) 포함. 과적 합을 방지하고 예측 정확도를 향상시키는 데 사용됩니다.

1
회귀 분석에서 데이터 센터링 및 표준화 필요
일부 정규화와 선형 회귀를 고려 : 예 찾기 것을 최소화 | | A x − b | | 2 + λ | | x | | 1xxx||Ax−b||2+λ||x||1||Ax−b||2+λ||x||1||Ax - b||^2+\lambda||x||_1 일반적으로 A의 열은 평균이 0이고 단위 규범을 갖도록 표준화되고 는 평균이 0이되도록 중앙에 배치됩니다. 표준화 및 센터링 사유에 대한 나의 이해가 …

1
lmer 모델에 사용할 다중 비교 방법 : lsmeans 또는 glht?
하나의 고정 효과 (조건)와 두 개의 임의 효과 (대상 내 설계 및 쌍으로 인해 참가자)가있는 혼합 효과 모델을 사용하여 데이터 세트를 분석하고 있습니다. lme4패키지로 모델이 생성되었습니다 exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). 다음으로, 고정 효과 (조건)없이 모형에 대해이 모형의 우도 비 검정을 수행했으며 유의 한 차이가 있습니다. 내 데이터 세트에는 3 가지 조건이 있으므로 다중 …

2
L2 표준 손실에 고유 한 솔루션이 있고 L1 표준 손실에 여러 솔루션이있는 이유는 무엇입니까?
http://www.chioka.in/differences-between-l1-and-l2-as-loss-function-and-regularization/ 이 글의 상단을 보면 L2 규범에는 고유 한 솔루션이 있고 L1 규범에는 아마도 많은 솔루션이 있다고 언급합니다. 나는 정규화 측면에서 이것을 이해하지만 손실 함수에서 L1 규범 또는 L2 규범을 사용하는 관점에서는 이해하지 못합니다. 스칼라 x (x ^ 2 및 | x |)의 함수 그래프를 보면 두 가지 고유 한 …

2
수축이 실제로 작동하는 이유는 무엇입니까? 0에 대해 특별한 점은 무엇입니까?
이 사이트에는 이미 같은 문제에 대한 게시물이 있습니다. 왜 수축이 작동합니까? 그러나 답변이 인기가 있지만 질문의 요지가 실제로 해결되지 않았다고 생각합니다. 추정에 약간의 편향을 도입하면 분산이 감소하고 추정 품질이 향상 될 수 있음이 분명합니다. 하나: 1) 왜 편향 도입으로 인한 피해가 분산 이득과 비교하여 적습니까? 2) 왜 항상 작동합니까? 예를 …

1
ARIMA 모델의 정규화
선형 회귀 모델에서 LASSO, 릿지 및 탄성 그물 유형의 정규화를 알고 있습니다. 질문: 이 (또는 유사한) 불이익 추정을 ARIMA 모델링에 적용 할 수 있습니까 (빈 부분이 아닌 MA 부분이 있는가)? pmaxpmaxp_{max}qmaxqmaxq_{max}피⩽p해요 X를p⩽pma엑스p \leqslant p_{max}q⩽ q해요 X를q⩽큐미디엄ㅏ엑스q \leqslant q_{max} 추가 질문 은 다음과 같습니다. 모든 항을 ( , q_ {max} ) …

4
능선 회귀의 동등한 공식 증명
통계 학습에서 가장 인기있는 책을 읽었습니다 1- 통계 학습의 요소. 2- 통계 학습 소개 . 둘 다 능선 회귀에는 동등한 두 가지 공식이 있다고 언급합니다. 이 결과에 대해 이해할만한 수학적 증거가 있습니까? 나는 또한 Cross Validated를 겪었 지만 거기에서 확실한 증거를 찾을 수 없습니다. 또한 LASSO는 동일한 유형의 증명을 누릴 …

3
온라인 학습의 정규화 및 기능 확장?
로지스틱 회귀 분류 기가 있다고 가정 해 봅시다. 일반적인 배치 학습에서는 과적 합을 방지하고 체중을 작게 유지하는 정규화 용어가 있습니다. 또한 기능을 정규화하고 확장합니다. 온라인 학습 환경에서 지속적인 데이터 스트림을 받고 있습니다. 각 예제에서 그라디언트 하강 업데이트를 수행 한 다음 버립니다. 온라인 학습에서 기능 스케일링 및 정규화 용어를 사용해야합니까? 그렇다면 …

1
올가미에서 0 구성 요소를 제공하는 가장 작은
올가미 추정치 정의 β λ = ARG 분 여기서 I ^ {일} 행 x_i로부터 \에서 \ mathbb {R}은 ^ P 설계 행렬 X \에서 \ mathbb {R} ^ {n \ 시간 p를} 벡터 인 확률 론적 반응 y_i ( i = 1의 경우, \ ​​dots n ) 를 설명하기위한 공변량β^λ=argminβ∈Rp12n∥y−Xβ∥22+λ∥β∥1,β^λ=arg⁡minβ∈Rp12n‖y−Xβ‖22+λ‖β‖1,\hat\beta^\lambda …


1
JAGS에서 정규화 된 베이지안 로지스틱 회귀
베이지안 올가미를 설명하는 수학이 많은 논문이 있지만, 사용할 수있는 올바른 JAGS 코드를 테스트하고 싶습니다. 누군가 정규화 된 로지스틱 회귀를 구현하는 샘플 BUGS / JAGS 코드를 게시 할 수 있습니까? 모든 체계 (L1, L2, Elasticnet)는 훌륭하지만 Lasso가 선호됩니다. 흥미로운 대안적인 구현 전략이 있는지 궁금합니다.


4
Norms- 특별한 점은 무엇입니까 ?
때문에 규범 (적어도 부분적으로) 고유 아닌 볼록 볼록 사이의 경계에있다. 규범은 '대부분의 스파 스'볼록 규범 (오른쪽?). p = 1 L 1L1L1L_1p=1p=1p=1L1L1L_1 나는 이해 유클리드 규범 기하학에 뿌리를 가지고 있으며, 크기가 같은 단위가 때 명확한 해석이있다. 그러나 왜 다른 실수보다 우선적으로 사용되는지 이해하지 못합니다 : ? ? 왜 전체 연속 범위를 …

1
데이터 행렬이 대각선 일 때 올가미 문제에 대한 닫힌 양식 솔루션
\newcommand{\diag}{\operatorname{diag}} 문제가 있습니다 : minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),\min_{w\in\mathbb{R}^{d}}\left( \frac{1}{n}\sum_{i=1}^{n} \left( \langle w,x_{i}\rangle-y_{i} \right)^{2} +2\lambda||w||_1\right), : ∑i=1nxixTi=diag(σ21,...,σ2d).∑i=1nxixiT=diag⁡(σ12,...,σd2).\sum_{i=1}^nx_ix_i^T=\diag(\sigma_1^2,...,\sigma_d^2). 이 경우 폐쇄 형 솔루션이 있습니까? 나는 그것을 가지고있다 : (XTX)−1=diag(σ−21,...,σ−2d),(XTX)−1=diag⁡(σ1−2,...,σd−2),(X^TX)^{-1}=\diag\left(\sigma_1^{-2},...,\sigma_d^{-2}\right), 그래서 대답은 : wj=yjmax{0,1−λn|yj|},wj=yjmax{0,1−λn|yj|},w\,^j=y\,^j\max\left\{0,1-\lambda \frac{n}{|y^j|}\right\}, 에 대한 yj=∑i=1nyixijσ2iyj=∑i=1nyixijσi2y\,^j=\displaystyle\sum_{i=1}^n\frac{y_ix_i\,^j}{\sigma_i^2} 하지만 확실하지 않습니다.

1
소규모 데이터 세트에서 LSTM의 과적 합 방지
저는 80 차원의 word2vec와 같은 표현을 사용하여 128 개의 숨겨진 단위를 가진 단일 계층 LSTM을 사용하여 감정 예측에 대한 15000 트윗을 모델링하고 있습니다. 1 에포크 후 하강 정확도 (임의의 = 38 %로 38 %)를 얻습니다. 훈련 정확도가 높아질수록 검증 정확도가 떨어지기 시작합니다. 따라서 정규화 방법을 생각하고 있습니다. 숨겨진 단위 수를 …

1
바이어스-분산 분해
주교의 패턴 인식 및 기계 학습의 3.2 절 에서, 제곱 손실 함수에 대해 예상 손실이 제곱 바이어스 항으로 분해 될 수 있음을 나타내는 바이어스-분산 분해에 대해 설명합니다 (평균 예측이 실제로부터 얼마나 멀리 떨어져 있는지 설명 함). 모델), 분산 항 (평균 주변 예측의 확산을 설명) 및 잡음 항 (데이터의 고유 잡음을 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.