모형 선택의 문제를 해결하기 위해 많은 방법 (LASSO, 능선 회귀 등)이 예측 변수의 계수를 0으로 줄입니다. 왜 이것이 예측 능력을 향상시키는 지에 대한 직관적 인 설명을 찾고 있습니다. 변수의 실제 효과가 실제로 매우 큰 경우, 왜 매개 변수를 축소해도 예측이 더 나 빠지지 않습니까?
모형 선택의 문제를 해결하기 위해 많은 방법 (LASSO, 능선 회귀 등)이 예측 변수의 계수를 0으로 줄입니다. 왜 이것이 예측 능력을 향상시키는 지에 대한 직관적 인 설명을 찾고 있습니다. 변수의 실제 효과가 실제로 매우 큰 경우, 왜 매개 변수를 축소해도 예측이 더 나 빠지지 않습니까?
답변:
대략적으로 말하면 세 가지 다른 예측 오류 소스가 있습니다.
설명되지 않은 분산을 추정하여 예측 밀도와 예측 구간에 통합하는 경우를 제외하고 포인트 3에 대해서는 아무 것도 할 수 없습니다. 이것은 우리에게 1과 2를 남깁니다.
실제로 "올바른"모형을 가지고 있다면 OLS 모수 추정값은 편향되지 않으며 모든 편향되지 않은 (선형) 추정기 (예 : BLUE)간에 편차가 최소화됩니다. OLS 모델의 예측은 최상의 선형 편향 예측 (BLUP)입니다. 그 좋은 소리.
그러나 모든 바이어스되지 않은 예측간에 편차가없는 예측과 편차가 있지만 편차는 여전히 매우 클 수 있습니다. 더 중요한 것은 때때로 "조금"편향을 도입하고 동시에 "많은"분산을 절약 할 수 있으며, 절충을 올바르게하면 편견이없는 편향보다 편향된 (더 낮은 분산) 모델을 사용하여 예측 오류를 줄일 수 있다는 점입니다. 높은 분산) 이것을 "바이어스-분산 트레이드 오프"라고하며,이 질문과 답변은 밝아지고 있습니다 : 바이어스 된 추정기가 언제 바이어스되지 않은 것보다 선호됩니까?
올가미, 능선 회귀, 탄성 그물 등과 같은 정규화는 정확히 그렇게합니다. 모델을 0쪽으로 당깁니다. (베이지안 접근 방식은 유사합니다. 이전 모델을 향해 모델을 가져옵니다.) 따라서 정규화 된 모델은 비정규 화 된 모델에 비해 편향되지만 분산도 더 낮습니다. 정규화 권한을 선택하면 오류가 적은 예측 결과가 나타납니다.
"바이어스-분산 트레이드 오프 정규화" 또는 이와 유사한 것을 검색 하면 생각할만한 음식을 얻을 수 있습니다. 예를 들어이 프레젠테이션은 유용합니다.
편집 : 아메바는 정확히 정규화 가 모델과 예측의 분산 이 왜 낮은 지에 대해 손으로 흔드는 것을 지적합니다 . 큰 정규화 매개 변수 있는 올가미 모델을 고려하십시오 . 경우 , 당신의 올가미 매개 변수 추정은 모두 0으로 축소됩니다. 고정 매개 변수 값이 0이면 분산이 0입니다. ( 매개 변수가 0으로 줄어드는 의 임계 값이 데이터와 모델에 따라 다르기 때문에 이것은 완전히 정확하지 않습니다 . 그러나 모델과 데이터가 주어지면 찾을 수 있습니다모델이 0 인 모델입니다. 항상 정량자를 똑바로 유지하십시오.) 그러나 제로 모델은 물론 큰 편견이 있습니다. 결국 실제 관찰에는 신경 쓰지 않습니다.
그리고 정규화 매개 변수의 전부가 아닌 극한값에도 동일하게 적용됩니다. 작은 값은 정규화되지 않은 매개 변수 추정값을 산출하며, 편향이 적고 ( "올바른"모델 인 경우 편향되지 않음) 더 높습니다. 변화. 그들은 당신의 실제 관찰에 따라 "주변"합니다. 당신의 정규화의 높은 값을 당신의 매개 변수는 더 많은 추정 "제한"할 것이다. 이것이 메소드가 "lasso" 또는 "elastic net" 과 같은 이름을 갖는 이유입니다. 즉, 매개 변수가 자유로이 데이터를 따라 이동하도록 제한합니다.
(저는 이것에 대해 약간의 논문을 작성하고 있습니다.
@Kolassa의 훌륭한 답변에 무언가를 추가하기 위해 수축 견적의 모든 질문은 Stein의 역설 과 결부되어 있습니다. 인 다변량 프로세스 의 경우 샘플 평균 벡터는 허용되지 않습니다. 다시 말해, 일부 모수 값의 경우 예상 위험이 낮은 다른 추정기가 있습니다. Stein은 수축 추정기를 예로 제안했습니다. 따라서 우리는 차원의 저주를 다루고 있습니다. 수축은 하나 또는 두 개의 독립 변수 만 있으면 도움이되지 않기 때문입니다.
자세한 내용은 이 답변 을 읽으십시오 . 분명히 Stein의 역설은 3 차원 이상의 Browian 모션 프로세스가 비재 귀적 (원점으로 돌아 가지 않고 모든 곳에서 방황)이라는 잘 알려진 정리와 관련이 있지만 1 차원 및 2 차원 브라운 사람들은 반복적입니다.
Stein의 역설은 축소 대상에 관계없이 유지되지만 실제로 실제 매개 변수 값으로 축소하면 더 좋습니다. 이것이 베이지안이하는 일입니다. 그들은 진정한 매개 변수가 어디에 있는지 알고 그것을 향해 축소한다고 생각합니다. 그런 다음 Stein이 자신의 존재를 확인한다고 주장합니다.
그것은 우리의 직관에 도전하지 않기 때문에 정확하게 역설이라고합니다. 그러나 Brownian 모션을 생각하면 3D Brownian 모션을 원점으로 되돌릴 수있는 유일한 방법은 단계에 댐핑 페널티를 부과하는 것입니다. 수축 추정기는 또한 추정에 일종의 댐퍼를 부과하여 (변동을 줄임) 이것이 작동하는 이유입니다.