올가미에 대한 최적의 페널티 선택


15

1 페널티 항 계수의 최적 선택에 관한 분석 결과 또는 실험 논문이 있습니까? 하여 최적의 , 나는 최고의 모델, 또는 최소화 예상 손실을 선택하는 확률을 극대화 매개 변수를 의미한다. 문제의 인스턴스 수가 많거나 문제의 크기 때문에 교차 유효성 검사 또는 부트 스트랩으로 매개 변수를 선택하는 것이 실용적이지 않기 때문에 종종 묻습니다. 내가 아는 유일한 긍정적 결과는 1 최소화에 의한 Candes and Plan, Near-ideal 모델 선택 입니다.11


2
올가미에 대한 일관성 결과를 확립하는 논문을 알고 있습니까? Knight & Fu (2000), Yu & Zhao (2006) 및 Meinshausen의 다양한 논문.
추기경

그렇습니다. 그러나 점근선 일관성에 관한 질문은 언급 한 논문의 주제입니다.
gappy

1
이 논문은 (주로) 모델 선택 일관성에 관한 것 입니다.이 질문은 귀하가 요청한 질문과 매우 관련이 있습니다. :)
추기경

답변:


2

Bickel 등 의 Checkout Theorem 5.1 . . 오차의 관점에서 통계적으로 최적의 선택 λ = σ 노이즈 와이와이^(λ)22상수A>2의 경우 n (높은 확률로)λ=σ소음로그 .A>22


이것은 알아야하기 때문에 청구서에 맞지 않는 것 같습니다 . 실제로, 제곱근 올가미 ( arxiv.org/pdf/1009.5689.pdf ) 를 자극하는 것은 바로이 문제입니다.σ영형나는에스이자형
user795305

5

나는 당신이 인용 된 논문 에서처럼 회귀에 관심이 있고 페널티 (그래픽 올가미)의 다른 적용은 아니라고 생각합니다.1

나는 Zou et al.에 의한 올가미의“자유도” 에 관한 논문에서 몇 가지 해답을 찾을 수 있다고 믿는다 . 간단히 말해, 유효 자유도에 대한 분석 공식을 제공합니다 . 제곱 오차로 인해 CV를 분석 유형 통계량 으로 대체 할 수 있습니다 .

살펴볼 또 다른 곳 은 Dantzig 선택기 : p가 n보다 훨씬 클 때의 통계 추정 과 같은 통계의 Annals of Statistics에 대한 토론 논문입니다. 내 이해는 올가미 회귀와 밀접한 관련이 있지만 고정 된 페널티 계수 선택으로 문제를 해결한다는 것입니다. 그러나 토론 논문도 살펴보십시오.

예측에 관심이 없지만 모델 선택에 관심이 있다면 비슷한 결과를 알지 못합니다. 예측 최적 모형은 종종 회귀 모형에서 너무 많은 선택된 변수를 초래합니다. 논문에서 안정성 선택 Meinshausen과 Bühlmann은 모델 선택에 더 유용한 서브 샘플링 기법을 제시하지만, 계산에 너무 많은 요구가있을 수 있습니다.


(+1)이 세 논문 모두이 주제에 관심이있는 사람들을 위해주의 깊게 읽을 가치가 있습니다. Dantzig 선택기 용지에는 매우 훌륭한 수학이 있습니다. 그러나 나는 그것이 응용 프로그램에서 많은 견인력을 얻거나 그것을 기대하지는 않았습니다. 나는 무엇보다도 시끄러운 정규화 경로가 사람들을 긴장하게 만들고 올가미에 대한 명백한 이점없이 열심히 판매합니다.
추기경

흠, 정규화 매개 변수의 주어진 값에 대한 0이 아닌 계수의 수는 그 값에서 DoF에 대한 편향되지 않은 추정이지만,이 추정은 매우 큰 편차입니다.
dohmatob

1

이 질문이 제기 된 이후로 흥미로운 진전이있었습니다. 예를 들어이 백서를 고려 하십시오

Chichignoud, M., Lederer, J., & Wainwright, M. (2016). 최적의 보장으로 올가미를 조정하기위한 실용적인 계획과 빠른 알고리즘. 기계 학습 연구 저널, 17, 1–17.

모델 선택을 위해 유한 한 유한 샘플 보증으로 LASSO 튜닝 파라미터를 선택하는 방법을 제안합니다. 논문에서 말했듯이, "표준 교정 체계의 경우, 그 중에서 교차 검증은 문헌에서 비교할만한 보증이 없습니다. 실제로, 표준 교정 체계에 대한 유한 샘플 보증은 알 수 없습니다."


0

이것은 귀하의 질문에 대답하지는 않지만 큰 데이터 설정에서는 크로스 검증에서 10 번 정도 (또는 부트 스트랩으로) 여러 번 수행하는 대신 단일 기차 / 테스트 분할을 사용하여 정규화기를 조정하는 것이 좋습니다. devset을 위해 선택된 샘플의 크기와 대표성은 최적의 정규화 기의 추정 정확도를 결정합니다.

내 경험상 보유 손실은 상당한 정규화 범위에서 비교적 평평합니다. 나는이 사실이 다른 문제를 해결하지 못할 것이라고 확신합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.