예측 모델을 구축 할 때 정규화의 이점에 대해 알고 있습니다 (바이어스 vs. 분산, 과적 합 방지). 그러나 회귀 모델의 주요 목적이 계수에 대한 추론 일 때 정규화 (lasso, ridge, elastic net)를 수행하는 것이 좋은 아이디어인지 궁금합니다. 나는 사람들의 생각과이를 다루는 학술지나 비 학술 기사에 대한 링크를 듣고 싶습니다.
예측 모델을 구축 할 때 정규화의 이점에 대해 알고 있습니다 (바이어스 vs. 분산, 과적 합 방지). 그러나 회귀 모델의 주요 목적이 계수에 대한 추론 일 때 정규화 (lasso, ridge, elastic net)를 수행하는 것이 좋은 아이디어인지 궁금합니다. 나는 사람들의 생각과이를 다루는 학술지나 비 학술 기사에 대한 링크를 듣고 싶습니다.
답변:
"정규화"라는 용어는 매우 다양한 방법을 다룹니다. 이 답변의 목적 상, 나는 "벌칙 화 된 최적화", 즉 최적화 문제에 또는 L 2 페널티를 추가하는 것을 의미하도록 좁힐 것 입니다.
그렇다면, 그 대답은 결정적인 "예! 잘"입니다.
그 이유 는 우도 함수에 또는 L 2 페널티를 추가하면 사후 분포를 얻을 수 있기 전에 Laplace 또는 Gaussian을 추가하는 것과 정확히 같은 수학적 함수가 발생하기 때문입니다 (엘리베이터 피치 : 사전 분포는 불확실성을 나타냅니다) 데이터를보기 전에 매개 변수의 뒤에서, 분포는 데이터를 본 후 매개 변수의 불확실성을 설명합니다.
"예!" 부품. "잘 아는 것"은 사후 분포 를 최적화 하고 "최대 후부"(MAP) 추정이라고합니다. 그러나 대부분의 베이지안은 MAP 추정을 사용하지 않으며, MCMC 알고리즘을 사용하여 사후 분포에서 샘플링합니다! 이것은 몇 가지 장점을 가지고 있는데, 하나는 분산 성분에서 하향 바이어스가 적다는 경향이 있다는 것입니다.
간결하게하기 위해 베이지안 통계에 대한 자세한 내용은 다루지 않으려 고했지만 관심이 있으신 분은 이곳을 살펴보십시오.
릿지 형 페널티와 올가미 형 페널티를 사용한 추정 수행에는 큰 차이가 있습니다. 릿지 유형 추정기는 모든 회귀 계수를 0으로 축소하는 경향이 있으며 편향되지만 변수를 정확히 0으로 축소하지 않기 때문에 점근 분포를 쉽게 도출 할 수 있습니다. 능선 추정치의 치우침은 후속 수행 가설 검정에서 문제가 될 수 있지만, 나는 그것에 대해 전문가가 아닙니다. 반면, Lasso / elastic-net 유형의 페널티는 많은 회귀 계수를 0으로 줄이므로 모델 선택 기술로 볼 수 있습니다. 데이터를 기반으로 선택한 모델에 대해 추론을 수행하는 문제는 일반적으로 선택적 추론 문제 또는 선택 후 추론이라고합니다. 이 분야는 최근 몇 년 동안 많은 발전을 보였습니다.
유사하게, 올가미 (또는 탄성 그물)는 선택된 모델이 선택되도록 샘플 공간을 제한합니다. 이 잘림은 더 복잡하지만 분석적으로 설명 할 수 있습니다.
이 통찰력에 기초하여, 데이터의 절단 된 분포에 기초하여 추론을 수행하여 유효한 테스트 통계를 얻을 수 있습니다. 신뢰 구간 및 테스트 통계는 Lee et al.의 작업을 참조하십시오. http://projecteuclid.org/euclid.aos/1460381681
그들의 메소드는 R 패키지 selectiveInference 에서 구현됩니다 .
모델 선택 후 최적의 추정 (및 테스트)은 (올가미의 경우)에 설명되어 있습니다 : https://arxiv.org/abs/1705.09417
https://github.com/ammeir2/selectiveMLE 에서보다 포괄적 인 소프트웨어 패키지를 제공합니다.
"통계적으로 유의 한 예측 변수"를 기반으로 추론에 회귀를 사용하려는 경우 특히 LASSO를 권장하지만 예상 한 이유는 아닙니다.
실제로 모형의 예측 변수는 상관 관계가있는 경향이 있습니다. 실질적인 다중 공선 성이 존재하지 않더라도 상관 된 예측 변수들 중에서 회귀의 "유의 한"예측 변수의 선택은 샘플마다 크게 다를 수 있습니다.
그래, 당신의 회귀를 위해 LASSO를 계속하십시오. 그런 다음 원래 데이터에서 여러 부트 스트랩 샘플 (수백 정도 정도)에 대해 전체 모델 구축 프로세스 (LASSO 페널티를 선택하기위한 교차 검증 포함)를 반복하십시오. 이런 식으로 선택된 "중요"예측 변수의 변수가 얼마나 다양한 지보십시오.
예측 변수가 서로 직교하지 않는 한이 과정을 통해 개별 예측 변수가 "중요하게"중요한 관점에서 회귀 분석에서 p- 값 해석에 대해 두 번 생각해야합니다.