기능 선택에서 올가미가 불안정 해지는 원인은 무엇입니까?


12

압축 감지에서는 에 고유 한 희소 솔루션 c 가 있음을 보장하는 정리 가 있습니다 (자세한 내용은 부록 참조).

argminc1subject to y=Xc
c

올가미에 대한 비슷한 정리가 있습니까? 그러한 정리가 있다면 올가미의 안정성을 보장 할뿐만 아니라 올가미에보다 의미있는 해석을 제공합니다.

올가미 성긴 회귀 계수 벡터를 발견 할 수 c 응답 생성하기 위해 사용되는 y 하여 y=Xc .

이 질문을하는 데는 두 가지 이유가 있습니다.

  1. 우리가 선택한 기능의 이점을 알 수 없기 때문에 'lasso는 희소 솔루션을 선호합니다'는 기능 선택에 올가미를 사용하는 이유에 대한 대답이 아니라고 생각합니다.

  2. 올가미가 기능 선택에 불안정한 것으로 유명하다는 것을 알았습니다. 실제로 안정성을 평가하려면 부트 스트랩 샘플을 실행해야합니다. 이 불안정성을 일으키는 가장 중요한 이유는 무엇입니까?


부록:

주어진 XN×M=(x1,,xM) . c A는 Ω -sparse 벡터 ( ΩM )를. 프로세스 y=Xc 는 응답 y를 생성합니다 y. 경우 X 순서의 NSP (null의 공간 속성)이 Ω 와의 공분산 행렬 X 제로에 어떤 고유 가까운이 없습니다에 유일한 해결책이 될 것입니다

argminc1subject to y=Xc
이것은 정확히 y 를 제공 하는 c 입니다 .y

이 정리에서 알 수 가 순서의 NSP가 아닌 경우 을 해결하는 것은 희망이 .XΩ아르 민:와이=엑스1


편집하다:

이 위대한 답변을받은 후, 나는이 질문을 할 때 혼란스러워한다는 것을 깨달았습니다.

이 질문이 혼란스러운 이유 :

디자인 매트릭스 몇 개의 피쳐 (열)가 있을지 결정해야하는 연구 논문 을 읽었습니다 (보조 피쳐는 기본 피쳐에서 생성됨). 전형적인 문제이므로 는 올가미 해가 실제 희소 해의 근사치가 될 수 있도록 잘 구성 될 것으로 예상됩니다.엑스×미디엄<

추론은 부록에서 언급 한 정리에서 나옵니다 . sparse 솔루션 를 찾는 것을 목표로한다면 , 는 순서의 NSP를 갖는 것이 좋습니다 .Ω엑스Ω

일반 행렬의 경우 을 위반하면×미디엄>Ωln미디엄

와 에서 를 안정적이고 강력하게 복구 할 수 없음

는 , 는 해당P y엑스와이

... 관계 에서 예상되는 것처럼 설명 자의 선택이 더 불안정 해집니다. 즉, 다른 훈련 세트의 경우 선택한 설명자가 종종 다릅니다 ...=Ωln미디엄

두 번째 인용문은 나를 혼란스럽게하는 부분입니다. 불평등이 위반되면 그것은 유일한 해결책 일뿐 만 아니라 언급되지 않았을 수도 있지만 (설명되지 않은) 설명자는 더 불안정해질 것입니다.


2
문맥 상, Q의 시작 부분에 적어 놓은 최적화 문제를 "기본 추구"라고합니다. 동등성 를 근사 성 동일성 (최대 L2 오류까지)로 바꾸면 "기본 추구 노이즈 제거"라고합니다. 기본 추구 노이즈 제거는 수학적으로 올가미와 동일합니다. y X c와이=엑스와이엑스
amoeba는 Reinstate Monica


당신이 인용 한 정리는 독창성에 관한 것입니다. 독창성이 반드시 안정성과 관련이있는 것은 아니기 때문에 귀하의 질문은 혼란 스럽습니다.
amoeba는

2
예, OP가 다소 혼란스럽고 질문이 명확하지 않으므로 다른 가능한 답변이 있습니다 ... 독창성은 단일 데이터 포인트, 안정성에 대한 교차 검증 또는 부트 스트랩 또는 새로운 데이터 포인트에 적용됩니다
Xavier Bourret Sicotte

답변:


8

최신 정보

위험 일관성 개념이 안정성과 관련이있는 내 대답에 대한 맥도날드의 피드백에 대해서는이 두 번째 게시물 을 참조하십시오 .


1) 독창성 vs 안정성

귀하의 질문은 독창성안정성 이라는 매우 다른 두 가지 주제를 언급하기 때문에 대답하기가 어렵습니다 .

  • 직관적으로, 고정 데이터 세트가 제공되면 솔루션은 고유 하며 알고리즘은 항상 동일한 결과를 생성합니다. 마틴의 답변 표지는이 점을 매우 자세하게 설명합니다.

  • 한편, 안정성 은 훈련 데이터가 약간 수정 될 때 예측이 크게 변하지 않는 것으로 직관적으로 이해 될 수있다.

올가미 기능 선택은 종종 교차 유효성 검사를 통해 수행되므로 올가미 알고리즘은 서로 다른 데이터에서 수행되므로 매번 다른 결과를 얻을 수 있기 때문에 안정성이 질문에 적용됩니다.

안정성과 무료 점심 정리

균일 안정성 을 다음과 같이 정의한 경우 여기 에서 정의를 사용합니다 .

알고리즘은 다음과 같은 경우 손실 함수 대해 균일 한 안정성 를 갖습니다 .VβV

에스미디엄  나는{1,...,미디엄},  저녁을 먹다|>V(에프에스,)V(에프에스|나는,)|  β

의 함수로 간주되는 라는 용어 는 으로 쓸 수 있습니다 . 이 감소 하면 알고리즘이 안정적이라고 말합니다 .β β m β m 1미디엄ββ미디엄β미디엄1미디엄

다음 "아니 무료 점심 정리, 쑤 및 Caramis (2012)" 상태가

알고리즘이 희소 한 경우 중복 기능을 식별한다는 의미에서 알고리즘은 안정적이지 않으며 균일 한 안정성 경계 는 0이 아닙니다. [...] 알고리즘이 안정적인 경우, 희소성이 될 것이라는 희망은 없습니다. (3, 4 페이지)β

예를 들어, 정규 회귀 분석은 안정적이며 중복 기능을 식별하지 않지만 정규 회귀 분석 (올가미)은 불안정합니다. L 121

귀하의 질문에 대한 답변

'lasso가 희소 솔루션을 선호합니다'는 기능 선택에 올가미를 사용하는 이유에 대한 답변이 아니라고 생각합니다.

  • 올가미가 기능 선택에 사용되는 이유는 스파 스 솔루션을 생성 하고 IRF 속성, 즉 중복 기능을 식별하는 것으로 표시 될 수 있기 때문입니다.

이 불안정성을 일으키는 가장 중요한 이유는 무엇입니까

  • 무료 점심 정리

더 나아 가기

이것은 교차 검증과 올가미의 조합이 작동하지 않는다는 것은 아닙니다. 사실 실험적으로 (그리고 많은지지 이론과 함께) 다양한 조건에서 매우 잘 작동하는 것으로 나타났습니다. 여기서 주요 키워드는 일관성 , 위험, 오라클 불평등 등입니다.

McDonald and Homrighausen (2013)의 다음 슬라이드와 논문은 Lasso 기능 선택이 잘 작동하는 일부 조건을 설명합니다. 슬라이드 와 종이 : "올가미, 지속성 및 교차 유효성 검증, McDonald and Homrighausen (2013)" . Tibshirani 자신도에 노트의 큰 세트 게시 sparcity를 , 선형 회귀

일관성에 대한 다양한 조건과 Lasso에 미치는 영향은 활발한 연구 주제이며 분명 사소한 질문이 아닙니다. 관련된 몇 가지 연구 논문으로 안내 할 수 있습니다.


1
귀하의 포괄적 인 답변에 감사드립니다! 제공하는 슬라이드 세트는 훌륭합니다!
meTchaikovsky

1
나는 여전히 안정성 의이 정의를 처리하려고합니다. 내 번역은 "1을 교차 검증 할 때 오류 / 손실 기능의 변화가 상한값 가지고 " 로 감소 하면 알고리즘은 안정적 입니다. folds / test-sets "β1미디엄 , 나는 그것이 옳았 으면 좋겠다. 올가미가 잘 작동하도록하기 위해 왜 그것이 바람직한 자산인지 궁금하다. (또는 더 정확하게 필요한 자산인지 궁금하다.)
Sextus Empiricus

1
예, m은 데이터 포인트 수를 제외하고. 확률 적 한계에 대해서는 여기 7 페이지를 참조하십시오. math.arizona.edu/~hzhang/math574m/Read/LOOtheory.pdf – 요점은 데이터 세트 크기를 늘려서 제공되는 안정성에 한계가 없다는 것입니다. 특정 데이터 세트에 따라 가설 기능을 멀리합니다. 그러나 그 명확하게 도움이 필요한 것 - 이것은 다른 조건이 기본 분포와 상관 관계 구조 (내가 생각하는)에 관련되는 제안 이유
자비에 BOURRET Sicotte

또 다른 중요한 개념은이다 일관성 : 예를 들어 여기에 설명 된대로 stat.ethz.ch/~nicolai/stability.pdf - 안정성과 일관성을 연결하는 방법 불분명하지만 활발한 연구 등의 대상이 될 것으로 보인다 cbcl.mit.edu/publications /ps/mukherjee-AImemoOctNov.pdf
Xavier Bourret Sicotte

좋은 대답입니다! 나중에 링크 자체가 작동하지 않을 경우 더 자세한 설명으로 일부 링크를 업데이트 할 수 있습니까? (나는 이미 당신을 위해 하나를했다.)
Richard Hardy

7

Daniel J. McDonald의 코멘트

인디애나 대학교 블루밍턴 조교수, Xavier Bourret Sicotte의 원래 응답에서 언급 한 두 논문의 저자 .

귀하의 설명은 일반적으로 매우 정확합니다. 내가 지적 할 몇 가지 사항 :

  1. CV 및 올가미에 대한 일련의 논문에서 우리의 목표는 "Lasso + Cross Validation (CV)" 뿐만 아니라 "Lasso + 최적의 "도λ 증명하는 것입니다 . 특히, 우리는 예측 (모델이없는)도 보여주고 싶었다. 올바른 비 희소 계수를 찾는 계수의 올바른 복구에 대해 진술하려면 희소 한 진실을 가정해야합니다.

  2. 알고리즘 안정성은 위험 일관성을 의미합니다 (Bousquet와 Elisseeff에 의해 처음 입증되었습니다). 위험 일관성으로, 나는클래스가 잘못 지정되면 f가 이거나 일부 클래스 내에서 가장 좋은 예측 변수 인 0이됩니다. 그러나 이것은 충분한 조건 일뿐입니다. 본질적으로 "올가미가 안정적이지 않기 때문에 작동하지 않을 수있는 증명 기술"로 링크 된 슬라이드에 언급되어 있습니다.E [ Y | X ]||f^(엑스)에프(엑스)||이자형[와이|엑스]

  3. 안정성은 충분하지만 반드시 필요한 것은 아닙니다. 일부 조건에서 "lasso + CV"는 물론 "lasso + optimal " 도 예측할 수있었습니다 . 인용 한 논문은 가능한 가장 약한 가정 (슬라이드 16에서 을 허용하는 가정 )을 제공하지만보다 일반적인 라그랑지안 버전보다는 제한된 형태의 올가미를 사용합니다. 다른 논문 ( http://www3.stat.sinica.edu.tw/statistica/J27N3/J27N34/J27N34.html )은 Lagrangian 버전을 사용합니다. 또한 훨씬 더 강력한 조건에서 모델 선택도 작동 함을 보여줍니다. 다른 사람들의 최신 논문 ( https://arxiv.org/abs/1605.02214 ) 은이 결과를 개선한다고 주장합니다 (필자는 읽지 않았습니다).p > nλ>

  4. 일반적으로 올가미 (또는 선택 알고리즘)가 안정적이지 않기 때문에“알고리즘 + CV”가 올바른 모델을 선택한다는 것을 보여주기 위해보다 신중한 분석 및 / 또는 강력한 가정이 필요합니다. 필요한 조건을 알지 못하지만 일반적으로 매우 흥미로울 것입니다. 고정 람다의 경우 올가미 예측 변수가 벡터 에서 로컬 Lipschitz라는 것을 보여주는 것은 어렵지 않습니다 (Ryan Tibshirani의 논문 중 하나 이상이이 작업을 수행한다고 생각합니다). 에서 이것이 사실이라고 주장 할 수 있다면 , 이것은 매우 흥미롭고 여기서 관련이 있습니다.X i와이엑스나는

나는 당신의 응답에 추가 할 것이라고 주요 테이크 아웃 :. "안정성"또한 많은 가정에서 "매개 변수 추정 일관성"을 의미 할 수 있습니다 "위험 일관성"또는 "예측 정확성"을 의미하지만 공짜 정리 수단 "선택". "안정적"이며 올가미는 고정 된 람다에서도 안정적이지 않기 때문에 CV (모든 유형의)와 결합 할 때 확실히 불안정하지만 안정성의 부재에도 불구하고 여전히 일관성이 있고 선택이 일치합니다. CV. 독창성은 중요하지 않습니다.


5

릿지 회귀와 달리 올가미 (예를 들어 Hoerl and Kennard, 1970; Hastie et al., 2009 참조)는 항상 고유 한 솔루션을 갖지는 않습니다. 모델의 매개 변수 수, 변수가 연속적이거나 불연속 적인지 여부 및 디자인 매트릭스의 순위에 따라 다릅니다. 고유성 조건은 Tibshirani (2013)에서 확인할 수 있습니다.

참고 문헌 :

Hastie, T., Tibshirani, R. 및 Friedman, J. (2009). 통계 학습의 요소 . 통계의 스프링거 시리즈. Springer, New York, 11th printing, 2 판.

Hoerl, AE 및 Kennard, RW (1970). 릿지 회귀 : 비 직교 문제에 대한 편향 추정. 기술 통계 , 12 (1), 55-67.

RJ Tibshirani (2013). 올가미 문제와 독창성. 전자 통계 저널 , 7, 1456-1490.


@ 감사합니다! 제공 한 참고 문헌에 대한 간략한 요약을 추가 할 수 있습니까?
meTchaikovsky

Hasite et al. (2009)는 Lasso와 Ridge 회귀 중 많은 주제를 다루는 책입니다. 읽을 가치가 있으며 Hastie의 홈페이지에서 다운로드 할 수 있습니다. web.stanford.edu/~hastie/ElemStatLearn/download.html Hoerl & Kennard (1970)는 고전적인 Ridge 회귀 참조이며 귀하의 질문과 직접적으로 관련이 없습니다. 릿지 회귀에 대해 읽는 것보다 Tibshirani (2013)에는 Lasso에 고유 한 솔루션이있는 경우 (및 솔루션이 무한한 경우)에 대한 정보가 포함되어 있습니다.
Phil

3

고유하지 않은 원인

벡터 (여기서 s ic i 의 변화가 c 1을 증가 또는 감소 시킬지 여부를 나타내는 부호 )에 대해, 그것들이 밀접하게 의존 할 때마다 :sixisicic1

αisixi=0andαi=0

그러면 솔루션 X c 와 표준 c 1을 바꾸지 않는 무한한 수의 조합 가 있습니다 .ci+γαiXcc1

예를 들면 다음과 같습니다.

y=[11]=[210111][c1c2c3]=Xc

위한 보유 용액 :c1=1

[c1c2c3]=[010]+γ[121]

함께 0γ12

벡터 를 대체 할 수 있습니다.x2x2=0.5x1+0.5x3


이 조건이없는 상황

Tibshirani (필의 답변)의 기사에서 올가미가 고유 한 솔루션을 갖기위한 세 가지 충분한 조건이 설명되어 있습니다.

  1. 엑스엑스
  2. 엑스에스

    케이케이2케이1α나는에스나는엑스나는α나는=1케이에스제이엑스제이α나는에스나는엑스나는α나는=0

    엑스1엑스2엑스[[21][11][01]]

  3. 엑스엑스

    엑스


+1 그러나 최근 토론에서 불안정한 의미는 상관 된 기능이있는 경우 교차 검증을 통한 기능 선택과 관련이 있다고 생각합니다.
Xavier Bourret Sicotte

@XavierBourretSicotte은 고유 한 솔루션이 있어도 고유 한 솔루션을 찾는 데 문제가있는 상관 된 기능으로 인해 선택 프로세스가 불안정 할 수 있음을 의미합니까? 질문은 안정성과 다른 한편으로 독창성에 대해 묻기 때문에 약간 혼란 스럽습니다.
Sextus Empiricus

λ

λ

{V1V0,V2V0,,V케이V0}에스나는엑스
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.