수치 적 안정성과 과적 합은 어떤 의미에서 관련이 있지만 다른 문제입니다.
고전적인 OLS 문제 :
고전적인 최소 제곱 문제를 고려하십시오.
minimize(over b)(y−Xb)T(y−Xb)
해결책은 고전적인 입니다. 아이디어는 많은 수의 법에 의해 :b^=(X′X)−1(X′y)
limn→∞1nX′X→E[xx′]limn→∞1nX′y→E[xy]
따라서 OLS 추정치 도 수렴됩니다. . (선형 대수 용어에서 이는 임의 변수 를 임의 변수 의 선형 범위에 선형 투영 한 것입니다 .)b^E[xx′]−1E[xy]yx1,x2,…,xk
문제?
기계적으로 무엇이 잘못 될 수 있습니까? 가능한 문제는 무엇입니까?
- 작은 표본의 경우 및 의 표본 추정치 가 좋지 않을 수 있습니다.E[xx′]E[xy]
- 열 이 공 선형 (내재적 공선 성 또는 작은 표본 크기로 인해) 인 경우, 문제는 연속적인 솔루션을 갖게됩니다! 솔루션이 고유하지 않을 수 있습니다.
X
- 경우 발생 랭크 부족이다.E[xx′]
- 회귀 문제 수에 비해 표본 크기가 작기 때문에 에 순위가 부족한 경우에도 발생합니다 .X′X
추정치 가 기본 모집단에없는 표본의 패턴을 반영하기 시작 하면 문제 (1)이 과적 합을 초래할 수 있습니다 . 추정치는 실제로 존재하지 않는 및 패턴을 반영 할 수 있습니다. 및b^1nX′X1nX′yE[xx′]E[xy]
문제 (2)는 해결책이 독특하지 않다는 것을 의미합니다. 개별 신발의 가격을 추정하려고하지만 항상 신발 한 켤레가 함께 판매된다고 상상해보십시오. 이것은 잘못된 문제이지만 어쨌든 우리가하고 있다고 가정 해 봅시다. 우리는 왼쪽 신발 가격과 오른쪽 신발 가격에 $ 50가 같다고 생각할 수 있지만 어떻게 개별 가격을 제시 할 수 있습니까? 왼쪽 신발 가격을 하고 오른쪽 신발 가격을 하시겠습니까? 우리는 모든 가능성 중에서 어떻게 선택할 수 있습니까?pl=45pr=5
페널티 소개 :L2
이제 다음을 고려하십시오.
minimize(over b)(y−Xb)T(y−Xb)+λ∥b∥2
이것은 두 가지 유형의 문제 모두에 도움이 될 수 있습니다. 처벌은 당사 추정치 밀어 0에 가까워을. 이것은 계수 값에 대한 분포가 주위에 집중되기 전에 베이지안으로서 효과적으로 기능 합니다. 그것은 과적 합에 도움이됩니다. 우리의 추정치는 데이터와 가 거의 0 이라는 초기 신념을 반영합니다 .L2b0b
L2또한 정규화는 항상 잘못된 문제에 대한 고유 한 솔루션을 찾습니다. 왼쪽과 오른쪽 신발의 가격이 총 인 것을 알고 있다면 규범을 최소화하는 은 를 선택하는 입니다.$50L2pl=pr=25
이거 마법이야? 아니요. 정규화는 실제로 질문에 대답 할 수있는 데이터를 추가하는 것과 다릅니다. 어떤 의미에서 정규화는 데이터가 부족한 경우 가까운 추정치를 선택한다는 견해를 채택합니다 .L20