통계적 추론을 수행 할 때 정규화 사용


18

예측 모델을 구축 할 때 정규화의 이점에 대해 알고 있습니다 (바이어스 vs. 분산, 과적 합 방지). 그러나 회귀 모델의 주요 목적이 계수에 대한 추론 일 때 정규화 (lasso, ridge, elastic net)를 수행하는 것이 좋은 아이디어인지 궁금합니다. 나는 사람들의 생각과이를 다루는 학술지나 비 학술 기사에 대한 링크를 듣고 싶습니다.


4
정규화는 베이지안 눈으로 볼 수 있습니다. 예를 들어 올가미는 이전의 두 배 지수에 해당합니다 (십자가 유효성 검사로 선택한 척도 사용). 따라서 하나의 가능성은 만개를하는 것입니다.
kjetil b halvorsen

1
0이 아닌 예측 변수를 결정하는 것은 올가미의 모든 것입니다! 당신이 통계적으로 0과 크게 구별되는 결정하려는 경우, 올가미 등의 방법을 고려하는 것이 매우 보람
user795305

답변:


8

"정규화"라는 용어는 매우 다양한 방법을 다룹니다. 이 답변의 목적 상, 나는 "벌칙 화 된 최적화", 즉 최적화 문제에 또는 L 2 페널티를 추가하는 것을 의미하도록 좁힐 것 입니다.L1L2

그렇다면, 그 대답은 결정적인 "예! 잘"입니다.

그 이유 는 우도 함수에 또는 L 2 페널티를 추가하면 사후 분포를 얻을 수 있기 전에 Laplace 또는 Gaussian을 추가하는 것과 정확히 같은 수학적 함수가 발생하기 때문입니다 (엘리베이터 피치 : 사전 분포는 불확실성을 나타냅니다) 데이터를보기 전에 매개 변수의 뒤에서, 분포는 데이터를 본 후 매개 변수의 불확실성을 설명합니다.L1L2

"예!" 부품. "잘 아는 것"은 사후 분포 를 최적화 하고 "최대 후부"(MAP) 추정이라고합니다. 그러나 대부분의 베이지안은 MAP 추정을 사용하지 않으며, MCMC 알고리즘을 사용하여 사후 분포에서 샘플링합니다! 이것은 몇 가지 장점을 가지고 있는데, 하나는 분산 성분에서 하향 바이어스가 적다는 경향이 있다는 것입니다.

간결하게하기 위해 베이지안 통계에 대한 자세한 내용은 다루지 않으려 고했지만 관심이 있으신 분은 이곳을 살펴보십시오.


2
(+1) 그러나 만약 그들이 좋은 예측을했기 때문에 그 이전의 것을 사용했다면 – 실제로 그 목적을 위해 그것들을 조정했을 수도 있습니다 – 그렇다면 MAP 추정이나 사후 분포를 어떻게해야합니까? (물론 데이터를 만들기 전에 매개 변수에 대한 지식을 표현하기 위해 사전에
이의를 제기 한 경우

1
@Scortchi : 그것은 매우 좋은 지적입니다 : 교차 유효성 검사를 사용하여 위약금을 선택하면 고전적인 베이지안 프레임 워크에서 벗어날 수 있습니다 (내가 아는 한). 정규화 매개 변수를 선택하기 위해 CV를 사용하여 모델을 작성하는 것은이 답변과 일치하지 않지만 전문가 정보를 기반으로 선택한 고정 된 벌칙을 사용하여 정규화를 사용하면됩니다.
Cliff AB

2
주의 사항 : 이전 + MCMC 접근법은 모든 잠재적 계수에 대한 사후를 검사하고보고하는 경우에만 유효한 결과를 제공합니다. 그렇지 않으면, 우리는 선택적인 추론 설정에 있고 대부분의 순진한 추론 방법론은 유효하지 않습니다.
user3903581

1
(+1) 좋은 답변입니다! 그러나 나는 "대부분의 베이지안은 MAP 추정을 사용하지 않고 MCMC 알고리즘을 사용하여 사후 분포에서 샘플링합니다!"라는 문장을 명확히하는 것이 가치가 있다고 생각합니다. 대부분의 베이지안이 추정값을 선택할 때 전체 후부를 사용한다고 말하려는 것 같습니다. 문제를 확인하기 위해 MAP에 대한 추정값은 사후 분포에 대한 표본에서 구할 수 있습니다.
user795305

8

릿지 형 페널티와 올가미 형 페널티를 사용한 추정 수행에는 큰 차이가 있습니다. 릿지 유형 추정기는 모든 회귀 계수를 0으로 축소하는 경향이 있으며 편향되지만 변수를 정확히 0으로 축소하지 않기 때문에 점근 분포를 쉽게 도출 할 수 있습니다. 능선 추정치의 치우침은 후속 수행 가설 검정에서 문제가 될 수 있지만, 나는 그것에 대해 전문가가 아닙니다. 반면, Lasso / elastic-net 유형의 페널티는 많은 회귀 계수를 0으로 줄이므로 모델 선택 기술로 볼 수 있습니다. 데이터를 기반으로 선택한 모델에 대해 추론을 수행하는 문제는 일반적으로 선택적 추론 문제 또는 선택 후 추론이라고합니다. 이 분야는 최근 몇 년 동안 많은 발전을 보였습니다.

yN(μ,1)μμ|y|>c>0cycy

유사하게, 올가미 (또는 탄성 그물)는 선택된 모델이 선택되도록 샘플 공간을 제한합니다. 이 잘림은 더 복잡하지만 분석적으로 설명 할 수 있습니다.

이 통찰력에 기초하여, 데이터의 절단 된 분포에 기초하여 추론을 수행하여 유효한 테스트 통계를 얻을 수 있습니다. 신뢰 구간 및 테스트 통계는 Lee et al.의 작업을 참조하십시오. http://projecteuclid.org/euclid.aos/1460381681

그들의 메소드는 R 패키지 selectiveInference 에서 구현됩니다 .

모델 선택 후 최적의 추정 (및 테스트)은 (올가미의 경우)에 설명되어 있습니다 : https://arxiv.org/abs/1705.09417

https://github.com/ammeir2/selectiveMLE 에서보다 포괄적 인 소프트웨어 패키지를 제공합니다.


4

"통계적으로 유의 한 예측 변수"를 기반으로 추론에 회귀를 사용하려는 경우 특히 LASSO를 권장하지만 예상 한 이유는 아닙니다.

실제로 모형의 예측 변수는 상관 관계가있는 경향이 있습니다. 실질적인 다중 공선 성이 존재하지 않더라도 상관 된 예측 변수들 중에서 회귀의 "유의 한"예측 변수의 선택은 샘플마다 크게 다를 수 있습니다.

그래, 당신의 회귀를 위해 LASSO를 계속하십시오. 그런 다음 원래 데이터에서 여러 부트 스트랩 샘플 (수백 정도 정도)에 대해 전체 모델 구축 프로세스 (LASSO 페널티를 선택하기위한 교차 검증 포함)를 반복하십시오. 이런 식으로 선택된 "중요"예측 변수의 변수가 얼마나 다양한 지보십시오.

예측 변수가 서로 직교하지 않는 한이 과정을 통해 개별 예측 변수가 "중요하게"중요한 관점에서 회귀 분석에서 p- 값 해석에 대해 두 번 생각해야합니다.


1
+1 나는 쓰여진 모든 것에 매우 실용적 답변에 동의하지만 왜 LASSO 대신 탄성 그물을 사용하지 않습니까? 능선 정규화는 예측 변수 간의 상관 관계를 좀 더 두드러지게 제어합니다.
usεr11852는 Reinstate Monic

실제로 올가미 OR 탄성 망을 통해 선택된 모델에서 유효한 p- 값, 추정치 및 신뢰 구간을 계산하는 것이 가능하며 바로 수행하면됩니다.
user3903581

@ user3903581 실제 귀무 가설로 인해 복제 표본의 5 %보다 적은 계수가 발생한다는 의미에서 유효한 잦은 LASSO p- 값을 얻을 수 있다는 점에 대해서는 논쟁의 여지가 없습니다. 문제는 예측 변수에 대해서만 인과 추론을 유발하려는 시도가 너무 빈번한데, 상관 예측 변수에 의해 제기 된 문제를 고려하지 않고 "중요한"것으로 간주됩니다.
EdM
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.