수축이 작동하는 이유는 무엇입니까?


55

모형 선택의 문제를 해결하기 위해 많은 방법 (LASSO, 능선 회귀 등)이 예측 변수의 계수를 0으로 줄입니다. 왜 이것이 예측 능력을 향상시키는 지에 대한 직관적 인 설명을 찾고 있습니다. 변수의 실제 효과가 실제로 매우 큰 경우, 왜 매개 변수를 축소해도 예측이 더 나 빠지지 않습니까?

답변:


48

대략적으로 말하면 세 가지 다른 예측 오류 소스가 있습니다.

  1. 모델의 편견
  2. 모델의 분산
  3. 설명 할 수없는 차이

설명되지 않은 분산을 추정하여 예측 밀도와 예측 구간에 통합하는 경우를 제외하고 포인트 3에 대해서는 아무 것도 할 수 없습니다. 이것은 우리에게 1과 2를 남깁니다.

실제로 "올바른"모형을 가지고 있다면 OLS 모수 추정값은 편향되지 않으며 모든 편향되지 않은 (선형) 추정기 (예 : BLUE)간에 편차가 최소화됩니다. OLS 모델의 예측은 최상의 선형 편향 예측 (BLUP)입니다. 그 좋은 소리.

그러나 모든 바이어스되지 않은 예측간에 편차가없는 예측과 편차가 있지만 편차는 여전히 매우 클 수 있습니다. 더 중요한 것은 때때로 "조금"편향을 도입하고 동시에 "많은"분산을 절약 할 수 있으며, 절충을 올바르게하면 편견이없는 편향보다 편향된 (더 낮은 분산) 모델을 사용하여 예측 오류를 줄일 수 있다는 점입니다. 높은 분산) 이것을 "바이어스-분산 트레이드 오프"라고하며,이 질문과 답변은 밝아지고 있습니다 : 바이어스 된 추정기가 언제 바이어스되지 않은 것보다 선호됩니까?

올가미, 능선 회귀, 탄성 그물 등과 같은 정규화는 정확히 그렇게합니다. 모델을 0쪽으로 당깁니다. (베이지안 접근 방식은 유사합니다. 이전 모델을 향해 모델을 가져옵니다.) 따라서 정규화 된 모델은 비정규 화 된 모델에 비해 편향되지만 분산도 더 낮습니다. 정규화 권한을 선택하면 오류가 적은 예측 결과가 나타납니다.

"바이어스-분산 트레이드 오프 정규화" 또는 이와 유사한 것을 검색 하면 생각할만한 음식을 얻을 수 있습니다. 예를 들어이 프레젠테이션은 유용합니다.

편집 : 아메바는 정확히 정규화 가 모델과 예측의 분산왜 낮은 지에 대해 손으로 흔드는 것을 지적합니다 . 정규화 매개 변수 있는 올가미 모델을 고려하십시오 . 경우 , 당신의 올가미 매개 변수 추정은 모두 0으로 축소됩니다. 고정 매개 변수 값이 0이면 분산이 0입니다. ( 매개 변수가 0으로 줄어드는 의 임계 값이 데이터와 모델에 따라 다르기 때문에 이것은 완전히 정확하지 않습니다 . 그러나 모델과 데이터가 주어지면 찾을 수 있습니다λλλλ모델이 0 인 모델입니다. 항상 정량자를 똑바로 유지하십시오.) 그러나 제로 모델은 물론 큰 편견이 있습니다. 결국 실제 관찰에는 신경 쓰지 않습니다.

그리고 정규화 매개 변수의 전부가 아닌 극한값에도 동일하게 적용됩니다. 작은 값은 정규화되지 않은 매개 변수 추정값을 산출하며, 편향이 적고 ( "올바른"모델 인 경우 편향되지 않음) 더 높습니다. 변화. 그들은 당신의 실제 관찰에 따라 "주변"합니다. 당신의 정규화의 높은 값을 당신의 매개 변수는 더 많은 추정 "제한"할 것이다. 이것이 메소드가 "lasso" 또는 "elastic net" 과 같은 이름을 갖는 이유입니다. 즉, 매개 변수가 자유로이 데이터를 따라 이동하도록 제한합니다.λ

(저는 이것에 대해 약간의 논문을 작성하고 있습니다.


4
퍼즐의 중요한 부분은 수축 방법이 분산을 줄이는 이유는 무엇입니까? (그들이 편견을 도입하는 것은 어느 정도 분명하다.) 당신은 단순히 그들이하는 것을 말하고있다. 그것에 대한 직감을 제공 할 수 있습니까?
amoeba는

2
@Stephan Kolassa 따라서 계수의 크기를 설명하는 페널티 용어를 추가하면 약간의 바이어스가 추가되지만 큰 계수에 페널티를 주므로 변동성이 줄어 듭니다. 일반적으로 작은 계수보다 변동성이 더 큽니다. 그 맞습니까? 그런 다음 궁극적으로 우리는 특정 계수에 대한 '정확한'값을 얻는 것에 대해 걱정하지 않고 모델의 전체 예측 능력에 관심이 있습니까?
주목받는

2
@aspiringstatistician : 두 번째 문장은 바로 마크입니다. "잘못되었지만 유용한"모델에 대해서는 George Box를 상기하십시오. 큰 매개 변수 추정치가 작은 것보다 많이 축소되는지에 대해서는 크게 걱정하지 않을 것입니다. 첫째, 이것은 표준화에 달려 있습니다. 둘째, 큰 매개 변수 값이 잘 추정되면 (즉, 오류가 적음) 반드시 크게 줄어드는 것은 아닙니다. 정규화는 잘못 정의 된 (즉, 분산이 높은) 매개 변수를 축소하는 데 "권장"합니다.
S. Kolassa-복원 모니카

3
+1. 종이와 함께 행운을 빌어 요! @aspiringstatistician : 올바른 모델을 얻는 것과 관련이없는 수축에 대한 아주 좋은 관찰; 이것은 정확히 맞습니다 (고려할 가치가 있습니다). 올바르게 지정된 모델은 정규화 된 "보다 덜 사실적인"모델보다 예측 능력이 떨어질 수 있습니다 ( 예를 들어이 문서의 307 페이지 부록 참조 ).
아메바는 21

7
+1. 다만, 정규화 된 모델 의 직관 에 대한 의문이 있었지만 이 모델의 베이지안 도출에 대해서는 언급하지 않는 것이 조금 불완전하다고 느꼈습니다. 예를 들어, 능선 회귀를 간단한 MLE과 비교할 때 대부분의 응용 프로그램에서는 균일 한 (부적절한) 분포가 아니라 정규 분포에서 가져온 효과를 생각하는 것이 당연합니다. 따라서 이러한 기법을 MAP 추정의 특수한 사례로 보는 것은 왜 능선 회귀를 선택해야 하는지를 분명하게합니다.
jlimahaverford

10

@Kolassa의 훌륭한 답변에 무언가를 추가하기 위해 수축 견적의 모든 질문은 Stein의 역설 과 결부되어 있습니다. 인 다변량 프로세스 의 경우 샘플 평균 벡터는 허용되지 않습니다. 다시 말해, 일부 모수 값의 경우 예상 위험이 낮은 다른 추정기가 있습니다. Stein은 수축 추정기를 예로 제안했습니다. 따라서 우리는 차원의 저주를 다루고 있습니다. 수축은 하나 또는 두 개의 독립 변수 만 있으면 도움이되지 않기 때문입니다.p3

자세한 내용은 이 답변 을 읽으십시오 . 분명히 Stein의 역설은 3 차원 이상의 Browian 모션 프로세스가 비재 귀적 (원점으로 돌아 가지 않고 모든 곳에서 방황)이라는 잘 알려진 정리와 관련이 있지만 1 차원 및 2 차원 브라운 사람들은 반복적입니다.

Stein의 역설은 축소 대상에 관계없이 유지되지만 실제로 실제 매개 변수 값으로 축소하면 더 좋습니다. 이것이 베이지안이하는 일입니다. 그들은 진정한 매개 변수가 어디에 있는지 알고 그것을 향해 축소한다고 생각합니다. 그런 다음 Stein이 자신의 존재를 확인한다고 주장합니다.

그것은 우리의 직관에 도전하지 않기 때문에 정확하게 역설이라고합니다. 그러나 Brownian 모션을 생각하면 3D Brownian 모션을 원점으로 되돌릴 수있는 유일한 방법은 단계에 댐핑 페널티를 부과하는 것입니다. 수축 추정기는 또한 추정에 일종의 댐퍼를 부과하여 (변동을 줄임) 이것이 작동하는 이유입니다.


Stein의 역설과 Brownian 프로세스 사이의 연결에 대한 참조가 있습니까?
kjetil b halvorsen

1
"자세한 내용은이 답변을 읽으십시오"아래의 링크를 클릭하십시오. 해당 응답에 연결하는 용지에 대한 링크가 있습니다.
Placidia

베이 추정기는 전체 클래스 정리에 의해 허용됩니다. JS 추정기와 직접 관련이 없습니다. 그러나 JS가 표본 평균을 지배한다는 결과로 사람들은 베이 추정기를 연구하는 데 더 관심을 갖게되었습니다. (I는 베이 즈 주장에 반대하고있어 "스타가 자신의 존재를 확인합니다 주장 것이다.")
user795305
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.