내가 아는 것에서 변수 선택에 올가미를 사용하면 상관 된 입력 문제를 처리합니다. 또한 최소 각도 회귀와 같으므로 계산 속도가 느리지 않습니다. 그러나 많은 사람들 (예 : 생체 통계를하는 사람들)은 여전히 단계별 또는 단계적 변수 선택을 선호합니다. 올가미를 사용하는 것이 유리하지 않은 실질적인 단점이 있습니까?
내가 아는 것에서 변수 선택에 올가미를 사용하면 상관 된 입력 문제를 처리합니다. 또한 최소 각도 회귀와 같으므로 계산 속도가 느리지 않습니다. 그러나 많은 사람들 (예 : 생체 통계를하는 사람들)은 여전히 단계별 또는 단계적 변수 선택을 선호합니다. 올가미를 사용하는 것이 유리하지 않은 실질적인 단점이 있습니까?
답변:
단계적으로 선택할 이유가 없습니다. 그냥 잘못이야
LASSO / LAR는 최고의 자동 방법입니다. 그러나 자동 방법입니다. 그들은 분석가가 생각하지 못하게했습니다.
많은 분석에서 일부 변수는 유의성 척도의 모델에 있어야합니다. 때로는 필요한 제어 변수가 있습니다. 다른 경우에는 작은 효과를 찾는 것이 실질적으로 중요 할 수 있습니다.
예측 오차 만 신경 쓰고 해석 성, 우연한 유추, 모형 단순성, 계수 테스트 등을 신경 쓰지 않는다면 왜 선형 회귀 모델을 사용하고 싶습니까?
의사 결정 트리를 높이거나 벡터 회귀를 지원하고 예측 품질을 높이고 언급 된 두 경우 모두 과적 합을 피할 수 있습니다. 즉, 올가미는 최상의 예측 품질을 얻는 최선의 선택이 아닐 수 있습니다.
내 이해가 정확하다면 올가미는 예측뿐만 아니라 모델 자체에 여전히 관심이있는 상황을위한 것입니다. 즉, 선택된 변수와 계수를보고, 어떤 식 으로든 해석하십시오. 그리고이를 위해-여기 다른 질문에서 논의 된 것처럼 특정 상황에서는 올가미가 최선의 선택이 아닐 수 있습니다.
LASSO는 계수를 0으로 축소하는 것을 권장합니다. 즉, 해당 편차를 모델에서 삭제합니다. 반면, 능선과 같은 다른 정규화 기술은 모든 변형을 유지하는 경향이 있습니다.
따라서이 삭제가 데이터에 적합한 지 여부를 생각하는 것이 좋습니다. 예를 들어 유전자 마이크로 어레이 데이터 또는 진동 분광 데이터에 대한 임상 진단 테스트 설정을 고려하십시오.
일부 유전자에는 관련 정보가 포함되어있을 것으로 예상되지만 다른 유전자는 잡음이 많습니다. 너의 어플리케이션. 이러한 변수를 삭제하는 것은 완벽하게 합리적인 아이디어입니다.
대조적으로, 진동 분광 데이터 세트 (일반적으로 마이크로 어레이 데이터와 비교하여 유사한 치수를 가짐)는 관련 정보가 스펙트럼의 큰 부분 (상관)에 대해 "더러 져"있는 경향이 있습니다. 이러한 상황에서 정규화에 편차를 요청하는 것은 특히 합리적인 방법이 아닙니다. PLS와 같은 다른 정규화 기술은 이러한 유형의 데이터에 더 적합합니다.
통계 학습의 요소는 LASSO에 대해 잘 설명하고 다른 정규화 기술과 대조합니다.
두 예측 변수가 서로 밀접한 관련이있는 경우 LASSO는 하나를 임의로 삭제합니다. 두 예측 변수가 서로 관련이없는 집단에 대해 예측하고 싶거나 아마도 그러한 상황에서 능선 회귀를 선호하는 이유는 그리 좋지 않습니다.
또한 범주 형 예측 변수를 표준화하는 현명한 방법에 대해 예측 변수의 표준화 (계수가 "큰"또는 "작은"인 경우)를 임의적이라고 생각하고 (나와 같이) 당혹스럽게 생각할 수도 있습니다.
올가미는 추정 할 모수에서 선형 인 모형을 고려하도록 스스로를 제한하는 경우에만 유용합니다. 달리 말하면, 올가미는 독립 변수와 종속 변수 사이의 올바른 관계 형식을 선택했는지 여부를 평가하지 않습니다.
임의의 데이터 세트에 비선형, 대화식 또는 다항식 효과가있을 수 있다는 것은 매우 타당합니다. 그러나 이러한 대체 모델 사양은 사용자가 해당 분석을 수행하는 경우에만 평가됩니다. 올가미는 그렇게 대신 할 수 없습니다.
이것이 어떻게 잘못 될 수 있는지에 대한 간단한 예를 들어, 독립 변수의 분리 된 간격이 종속 변수의 높은 값과 낮은 값을 번갈아 예측하는 데이터 세트를 고려하십시오. 분석을 위해 존재 하는 매니페스트 변수 에는 선형 효과가 없기 때문에 (일부 매니페스트 변수의 변환이 도움이 될 수 있음) 기존 선형 모델을 사용하여 정렬하기 가 어려울 것입니다. 매니페스트 형태 왼쪽, 올가미는 것이다 잘못 이 기능이 불필요한 것을 결론 더 없기 때문에 계수를 제로 선형 관계. 반면에 데이터에 축 정렬 분할이 있기 때문에 임의 포리스트와 같은 트리 기반 모델이 적합 할 것입니다.
올가미 및 기타 정규화 기술의 한 가지 실질적인 단점은 최적의 정규화 계수 람다를 찾는 것입니다. 이 값을 찾기 위해 교차 검증을 사용하는 것은 단계적 선택 기법만큼이나 비쌀 수 있습니다.
저는 LASSO 전문가는 아니지만 시계열 전문가입니다. 시계열 데이터 또는 공간 데이터가 있다면 독립적 인 관측에 근거한 솔루션을 적절하게 피할 수 있습니다. 또한 데이터에 영향을 미치는 결정적 효과가 알려지지 않은 경우 (레벨 이동 / 시간 추세 등) LASSO는 그다지 좋은 망치가 될 수 없습니다. 시계열 데이터가있을 때 닫을 때 시간이 지남에 따라 변하는 매개 변수 또는 오류 분산에 직면 할 때 데이터를 분할해야하는 경우가 종종 있습니다.
이것은 이미 오래된 질문이지만 그 동안 대부분의 답변은 상당히 구식이라고 생각합니다 (정답으로 확인 된 답변은 명백한 잘못된 imho입니다).
첫째, 좋은 예측 성능을 얻는다는 점에서 LASSO가 항상 단계적보다 나은 것은 사실이 아닙니다. Hastie et al (2017) 의 논문 "최고 부분 집합 선택, 전진 단계 선택 및 올가미 의 확장 된 비교"는 전진 단계적, LASSO 및 완화 된 LASSO와 같은 일부 LASSO 변형뿐만 아니라 최상의 부분 집합을 광범위하게 비교합니다. 단계적으로 LASSO보다 단계별로 더 나은 것을 보여줍니다. LASSO-이완 된 LASSO는 가장 광범위한 상황에서 가장 높은 모델 예측 정확도를 생성 한 것입니다. 어느 것이 가장 좋은지에 대한 결론은 가장 높은 것으로 생각하는 것에 달려 있습니다.
그래도 전체 희소 학습 방법이 있으며 대부분 LASSO보다 낫습니다. 예를 들어 패키지에 구현 된 Meinhausen의 편안한 LASSO , 적응 형 LASSO 및 SCAD 및 MCP 불이익 회귀가 있으며 ncvreg
, 표준 LASSO보다 편향이 적으므로 선호됩니다. 또한 최고의 예측 성능을 가진 절대 희소 솔루션에 관심이있는 경우 L0 불이익 회귀 (일명 최상의 하위 집합, 즉 LASSO에서 계수의 절대 값의 합계와 비교하여 0이 아닌 계수의 nr의 처벌을 기반으로 함) LASSO보다 낫다는 예 참조 l0ara
패키지 사용 L0 범 GLMS 근사 반복 적응 릿지 절차, LASSO와는 달리 고도의 공선 변수와 매우 잘 작동하는 L0Learn
패키지 는 좌표 하강을 사용하여 L0 불완전 회귀 모델에 적합 하며, 잠재적으로 공선 성을 정규화하기 위해 L2 페널티와 결합 할 수 있습니다.
따라서 원래의 질문으로 돌아가려면 변수 선택에 LASSO를 사용하지 않는 이유는 무엇입니까? :
(1) 계수가 고도로 편향되어 완화 된 LASSO, MCP 및 SCAD 불이익 회귀에서 개선되고 L0 불이익 회귀 (완전한 oracle 속성을 갖는, 즉 인과 관계 변수 및 재 동기화를 모두 제거 할 수 있음)에서 완전히 해결되기 때문에 편향되지 않은 계수, p> n 경우에도 해당)
(2) 그것은 L0 처벌 회귀보다 더 많은 오탐 (false positive)을 생성하는 경향이 있기 때문에 (내 테스트에서 l0ara
반복적 적응 능선과 그 다음에 가장 잘 수행됩니다 L0Learn
)
(3) 공선 변수를 잘 처리 할 수 없기 때문에 (필수적으로 공선 변수 중 하나를 무작위로 선택합니다)-반복 l0ara
적응 능선 / L0L2 페널티 L0Learn
가 그 처리에 훨씬 좋습니다.
물론, 일반적으로 최적의 예측 성능을 얻으려면 정규화 매개 변수를 조정하기 위해 교차 유효성 검사를 사용해야하지만 문제는 아닙니다. 또한 비모수 적 부트 스트랩을 통해 원하는 경우 매개 변수에 대해 높은 차원의 추론을 수행하고 계수에 대한 95 % 신뢰 구간을 계산할 수 있습니다 (각 부트 스트랩 된 데이터 세트에서도 교차 검증을 수행하는 경우 최적의 정규화 선택에 대한 불확실성을 고려하더라도) , 그것은 꽤 느려집니다).
계산적으로 LASSO는 단계적 접근 방식 btw보다 적합하지 않습니다. 따뜻한 시작을 사용하는 고도로 최적화 된 코드를 사용하여 LASSO 정규화를 최적화하는 경우는 아닙니다 ( fs
포워드 단계별 명령 및 패키지의 lasso
LASSO 명령을 사용하여 자신을 비교할 수 있음 bestsubset
). 단계적 접근 방식이 여전히 대중적이라는 사실은 아마도 최종 모델을 유지하고 p 값과 관련된 값을보고 할 수 있다는 많은 사람들의 잘못된 믿음과 관련이있을 것입니다. 실제로는 올바른 것이 아닙니다. 모델 선택에 의해 도입 된 불확실성을 고려하여 너무 낙관적 인 p 값을 초래합니다.
도움이 되었기를 바랍니다?
가장 큰 것은 가설 테스트를 수행하기가 어렵다는 것입니다. 올가미에서 어떤 변수가 통계적으로 유의한지 쉽게 알 수 없습니다. 단계별 회귀 분석을 통해 다중 테스트 처리에주의를 기울이면 가설 검정을 어느 정도 수행 할 수 있습니다.