LASSO 모델에서 를 선택하는 것이 얼마나 방어 적인가?


11

교차 검증을 통해 람다를 결정할 때 모든 계수는 0이됩니다. 그러나 일부 예측 변수가 결과에 확실히 영향을 주어야한다는 문헌에 대한 힌트가 있습니다. 람다를 임의로 선택하여 원하는만큼의 희소성이있는 것이 쓰레기입니까?

콕스 모델에 대해 135 개 중 10 개 정도의 예측 변수를 선택하려고하지만 불행히도 효과 크기가 작습니다.


6
데이터 기반이 아닌 정보를 가지고 있기 때문에 유익한 정보를 미리 사용해야하는 것처럼 들립니다.
chanceislogic

깊은 곳에서 나는 그것이 옳을 것이라고 생각하지만, 불행히도 지금 어디에서 이것을 시작할 지에 대한 통계적 능력이 완전히 부족합니다.
miura

1
두 가지 다른 것을 혼동하는 것처럼 보입니다. (1) 문헌에서 특정 예측 변수를 사용하도록 지시하면 모든 모형에 포함시킵니다. (2) 대신 문헌에 언급 된 특정 예측 변수를 포함하는지 여부에 관계없이 많은 예측 변수 중에서 특정 숫자를 선택해야 함을 나타내는 것으로 해석합니다 . 실제로 달성하려는 것을 명확히 할 수 있습니까?
whuber

답변:


4

문헌에 정의 된 일부 범위의 값을 가진 최소한의 예측 변수를 원한다면 왜 순수 LASSO 접근 방식을 선택해야합니까? @probabilityislogic이 제안했듯이, 지식이있는 변수에 대해 유익한 사전 정보를 사용해야합니다. 나머지 예측 변수에 대해 LASSO 속성 중 일부를 유지하려면 서로 다른 입력에 대해 이중 지수 분포를 사용하여 사전을 사용할 수 있습니다. 예를 들어 형식의 밀도를 사용할 수 있습니다 여기서

p(βi)=λ2exp(λ|βi|),
λ는 순수 LASSO 솔루션에 해당하는 래그 레인지 승수입니다. 이 마지막 진술은 유익한 선례가있는 변수가 없을 때 LASSO를 유도하는 또 다른 방법이라는 사실에서 비롯됩니다 (잔차에 대한 정규성 가정에서 사후 모드를 최대화함으로써).

3

LASSO를 수행하는 좋은 방법이 있지만 고정 된 수의 예측 변수를 사용하십시오. Efron의 논문에 설명 된 최소 각도 회귀 (LAR 또는 LARS)입니다. 반복 절차를 수행하는 동안 다수의 선형 모형이 작성되며 각각의 새로운 모형에는 하나 이상의 예측 변수가 있으므로 원하는 수의 예측 변수가있는 모형을 선택할 수 있습니다.

다른 방법은 또는 정규화입니다. 적절한 사전 설정을 사용하여 Nestor에서 언급했듯이 사전 지식을 모델에 통합 할 수 있습니다. Tipping에 의한 소위 관련성 벡터 머신이 유용 할 수 있습니다.l1l2


3
LARS와 올가미는 밀접한 관련이 있지만 고정 된 수의 예측 변수에 대해서는 동일한 변수를 포함하지 않을 수도 있습니다. 하나는 선택할 수 예측의 수를 제공하는 올가미에 대한 처벌 값을, 그러나 어느 경우에 선택은 고유합니다! 따라서 OP는 아직 잘 정의 된 절차를 제공하지 않았으며 이는 문제의 일부입니다. LARS의 경우 특정 수의 예측 변수를 생성하는 페널티 값이 구간을 형성한다는 이점이 있으므로 끝점 (어느 쪽?) 또는 중간 점 또는 다른 기준을 선택하는 것이 다소 쉽습니다.
추기경

1
예, LARS와 LASSO가 동일하지는 않지만 LARS 기반 기술을 사용하여 LASSO 솔루션을 얻기 위해 원본 기사에서 제안한 LARS의 간단한 수정을 도입 할 수 있습니다.
Alexey Zaytsev

예, 알렉세이 사실입니다. 내 의견은 왜 처음으로 LARS로 이사했는지에 관한 것입니다. 일반적으로 원하는 개수의 예측 변수를 산출하는 올가미에 대한 페널티 모수의 값을 쉽게 선택할 수 있습니다. 해결되지 않은 주요 요점 은 OP의 경우에 발생할 수 있는 독특한 선택과 그 결과 에 대해 어떻게해야하는지입니다 . :)
추기경

2

아니요, 방어 할 수 없습니다. 모델 선택 절차가 극복하도록 설계된 큰 장애물은 진정한지지의 카디널리티알 수 없습니다. (여기서 는 "true"계수입니다.)모델 선택 절차는 가능한 모든 모델을 철저히 검색해야 합니다. 그러나우리는 바로 확인할 수 있습니다 훨씬 적은 인 모델.|S|=|{j:βj0}|β|S|2p|S|(p|S|)

올가미 이론은 선택된 모델이 충분히 희박 해 지도록 정규화 파라미터 가 충분히 큰 것에 의존한다 . 하한을 의 상한으로 바꾸는 것이 쉽지 않기 때문에 10 개의 기능이 너무 많거나 너무 적을 수 있습니다. .λλ|S|

하자 우리 데이터 기반 추정 될 및 넣어 . 그렇다면 적어도 관련 기능을 복구 하기 위해 인지 확인하려고 하십니까? 또는 찾은 기능이 모두 가치가 있음을 알 수 있도록 를 설정하려고 합니까? 이 경우 상대 크기 에 대한 사전 정보가 있으면 절차가 더 정당화됩니다 .β^βS^={j:β^j0}SS^S^SS

또한 올가미를 수행 할 때 일부 계수를 처벌받지 않은 상태로 둘 수 있습니다 (예 :) glmnet.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.