올가미 식별 변수 하위 집합에서 OLS 추정치보다 올가미 추정치를 사용하는 이유는 무엇입니까?


26

올가미 회귀 분석 경우 최상의 솔루션 (예 : 최소 테스트 오류)이 k 개의 피처를 선택한다고 가정합니다 . 그래서 \ 모자 {\ 베타가} ^ {올가미} = \ 좌측 (\ 모자 {\ 베타 _1} ^ {올가미} \ {모자 \ 베타 _2} ^ {올가미} ... \ 모자 {\ 베타} _k ^ {lasso}, 0, ... 0 \ right) .k는 β L S S O = ( β L S S O 1 , β L S S O 2 , . . . , β L

L(β)=(Xβy)(Xβy)+λβ1,
케이β^에이에스에스영형=(β^1에이에스에스영형,β^2에이에스에스영형,...,β^케이에이에스에스영형,0,...0)

우리는 알고 (β^1에이에스에스영형,β^2에이에스에스영형,...,β^케이에이에스에스영형) A는 \ left (\ beta_1, \ beta_2, ..., \ beta_k \ right) 의 치우친 추정치 (β1,β2,...,β케이)때문에 왜 우리는 왜 여전히 '합리적인'대신에 β^에이에스에스영형 를 최종 해결책으로 삼 을까요 ? β^이자형=(β^1:케이이자형,0,...,0) , 여기서 β^1:케이이자형 는 부분 모델 L ^ {new} (\ beta_ {1 : k}) = (X_ {1 : k} \ beta-y) '(X_ {1 : k 의 LS 추정치입니다 . } \ beta-y)이자형(β1:케이)=(엑스1:케이β와이)'(엑스1:케이β와이) . ( X_ {1 : k} 는 선택된 k 개의 기능에 해당하는 X엑스1:케이 의 열을 나타냅니다 ).엑스케이

간단히 말해서 왜 변수 선택 대신 (선택된 기능에 대한 추정값을 OLS로 남겨 두는 대신) 기능 선택과 매개 변수 추정에 모두 Lasso를 사용합니까?

(또한, '올가미 대부분에서 선택할 수있는 무엇을 의미 하는가 기능'? 샘플 크기입니다.)


1
아주 좋은 질문입니다. 당신이 당신의 방법으로 시도한다면 표준 올가미와 결과가 얼마나 다른지보기 위해 몇 가지 시뮬레이션을 시도 했습니까?
Placidia

3
LASSO에서 "수축"의 목적을 이해 했습니까?
Michael M

6
가장 큰 값을 선택했기 때문에 계수 추정값을 정확하게 축소하는 것이 좋습니다. 미리 형상 선택을 수행 한 경우 최소 제곱 추정값이 더 이상 바이어스되지 않습니다.
Scortchi-Monica Monica 복원

2
"축소 방법으로 어떤 문제를 해결합니까?" stats.stackexchange.com/questions/20295/…
DL Dahly

2
명확하게 : @Scortchi가 잘못되었다고 말하지는 않지만 기능 선택을 논의 할 때 약간 회색 부분이며, 이것이 매우 분명한 기술적 인 요점이라고 생각합니다.
JohnA

답변:


27

변수 선택에 LASSO를 사용한 다음 OLS를 사용하는 데 문제가 있다고 생각하지 않습니다. " 통계학 학습 요소 "(91 페이지)

올가미 수축은 0이 아닌 계수의 추정값이 0으로 편향되고 일반적으로 일정하지 않다 [ 추가 된 참고 : 이는 표본 크기가 커짐에 따라 계수 추정값이 수렴하지 않음을 의미합니다 . 이 편향을 줄이는 한 가지 방법은 올가미를 실행하여 0이 아닌 계수 세트를 식별 한 다음 제한되지 않은 선형 모형을 선택된 피쳐 세트에 맞추는 것입니다. 선택한 세트가 큰 경우 항상 실행 가능한 것은 아닙니다. 또는 올가미를 사용하여 0이 아닌 예측 변수 집합을 선택한 다음 올가미를 다시 적용 할 수 있지만 첫 번째 단계에서 선택한 예측 변수 만 사용합니다. 이것은 편안한 올가미 로 알려져 있습니다(Meinshausen, 2007). 아이디어는 교차 검증을 사용하여 올가미의 초기 페널티 모수를 추정 한 다음 선택한 예측 변수 세트에 적용되는 두 번째 페널티 모수를 추정하는 것입니다. 두 번째 단계의 변수는 노이즈 변수에서 "경쟁"이 적기 때문에 교차 유효성 검사는 [페널티 매개 변수]에 대해 더 작은 값을 선택하는 경향이 있으므로 계수는 초기 추정값보다 줄어 듭니다.λ

완화 된 올가미와 정신적으로 유사한 또 다른 합리적인 접근법은 후보 예측 변수 그룹을 식별하기 위해 올가미를 한 번 (또는 여러 번 함께) 사용하는 것입니다. 그런 다음 최상의 부분 집합 회귀 분석 을 사용 하여 고려해야 할 최상의 예측 변수를 선택하십시오 ( "통계 학습 요소"참조). 이것이 효과를 발휘하려면 후보 예측 변수 그룹을 약 35 개로 세분화해야하지만, 항상 가능한 것은 아닙니다. 초과 검증을 방지하기 위해 교차 검증 또는 AIC를 기준으로 사용할 수 있습니다.


내 질문의 또 다른 부분은 '올가미는 최대 n 개의 기능을 선택할 수있는 이유'입니다. 이 경우 OLS가 'BLUE'이므로 선택한 기능에 대한 OLS가 최소한 '양호한 것'이라고 생각합니다. 올가미가 정확한 기능을 선택하는 극한 상황을 고려하면 이러한 기능에 대해 OLS를 수행하면 실제 모델이 복원되므로 올가미 추정보다 낫습니다.
yliueagle

2
문제는이 "극단적 인 상황"이 발생할 가능성이 거의 없으며 LASSO가 정확한 기능을 정확하게 선택했는지 알 방법이 없다는 것입니다. LASSO가 너무 많은 기능을 선택하면 전체 OLS 모델이 LASSO 추정치보다 성능이 떨어질 수 있습니다. 마찬가지로, 피처가 너무 많으면 능선 회귀가 OLS보다 성능이 우수 할 수 있습니다 (즉, OLS가 과적 합).
Alex Williams

2
섹션 2.2의 끝인 web.stanford.edu/~hastie/StatLearnSparsity_files/SLS.pdf 도 참조하십시오 : "[...] [...] 예측 변수의 부분 집합에 적합한 최소 제곱은 올가미 추정치를 확장하는 경향이 있습니다. 올가미의 0이 아닌 추정값은 0으로 편향되는 경향이 있으므로 오른쪽 패널의 디바 이어 싱은 종종 모델의 예측 오류를 개선 할 수 있습니다.이 2 단계 프로세스는 완화 올가미라고도합니다 (Meinshausen 2007). "
amoeba는 Reinstate Monica는

1
Meinshausen 논문을 살펴본 결과 실제로 The Elements의 원래 인용문에 설명 된 것처럼 두 가지 페널티 매개 변수를 맞추는 것이 좋습니다. +1
아메바는 Reinstate Monica가

@AlexWilliams 그러나 이전 단락에서 선택된 세트와 작은 것의 상관 관계에 대한 희소성 가정이 있습니까?
Dimitriy V. Masterov

15

목표가 최적의 샘플 내 성능 (최고 R- 제곱) 인 경우 사용 가능한 모든 변수에 OLS를 사용하십시오. 변수를 삭제하면 R 제곱이 감소합니다.

목표가 표본에서 벗어난 성능 (보통 훨씬 더 중요한 것) 인 경우 제안 된 전략에는 두 가지 초과 피팅 소스가 있습니다.

  • 반응 변수와의 상관 관계를 기반으로 변수 선택
  • OLS 추정

LASSO의 목적은 두 가지 초과 피팅 소스를 극복하기 위해 모수 추정치를 0으로 축소하는 것입니다. 샘플 내 예측은 항상 OLS보다 나쁘지만 더 현실적인 샘플 외 행동을 얻기 위해서는 (벌칙의 강도에 따라) 희망이 있습니다.

과 관련하여 : 이것은 아마도 사용중인 LASSO의 구현에 달려 있습니다. Lars (최소 각 회귀) 변형은 대해 쉽게 작동합니다 .p > n>>


2
"Leekasso"(항상 10 개의 계수 선택)는 문제 제안과 다릅니다 (LASSO에서 선택한 k 개의 예측 변수를 사용하여 OLS 재 추정)
Affine

@affine 당신은 완전히 옳습니다. 참조를 제거했습니다.
Michael M

2
이것은 합리적으로 들리지만 Lasso의 발명자들은 달리 주장 하고 실제로는 Lasso로 식별 된 부분 집합 (OP에서 제안한대로)에서 OLS와 함께 2 단계 절차를 사용할 것을 권장합니다. @ Alex 's answer를 참조하십시오.
amoeba는 Reinstate Monica가

검색 자체의 선택 바이어스를 언급하기 때문에이 답변이 마음에 듭니다. 추가 벌금이 있어야한다고 생각합니다. 단순한 서브셋 선택 메커니즘으로서의 LASSO-그게 전부입니까? 그렇다면 왜 계수를 전혀 인쇄하지 않습니까?
Ben Ogorek

3

Lasso가 최대 n 개의 기능을 선택할 수있는 이유에 대한 OPs 질문과 관련하여 :

엑스엑스β=(엑스엑스)1엑스와이

올가미는 변수 계수를 줄여서 이런 일이 발생하지 않도록 하므로 를 항상 뒤집을 수 있도록 n 개 이상의 피처를 선택하지 않습니다 .엑스엑스


1
(-1) 나는 이것이 사실이라고 생각하지 않습니다. 존재하지 않는 과 올가미 사이의 연결에 대해 더 자세히 설명해 시겠습니까? 구체적으로, $ X ^ TX는 올가미와 어떤 관련이 있습니까? OPS 질문에 대한 증거가 있습니다 (예 : stats.stackexchange.com/questions/38299/…).이 답변이이를 증명하지는 않습니다. (실수인지 알려주세요!)(엑스엑스)1
user795305
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.