능선 회귀에서의“행렬 반전의 수치 적 안정성”과 과적 합 감소에 대한 역할에 대한 설명


10

최소 회귀 문제에서 정규화를 사용할 수 있음을 이해합니다.

w=argminw[(yXw)T(yXw)+λw2]

이 문제에는 다음과 같은 폐쇄 형 솔루션이 있습니다.

w^=(XTX+λI)1XTy.

두 번째 방정식에서 정규화는 단순히 λ\ boldsymbol {X} ^ T \ boldsymbol {X} 의 대각선에 추가 XTX하는 것입니다. 이는 행렬 반전의 수치 안정성을 향상시킵니다.

수치 안정성에 대한 나의 현재 '조잡한'이해는 함수가 더 '수치 적으로 안정 해지면'입력의 잡음에 의해 그 출력이 덜 크게 영향을 받는다는 것입니다. 이 수치 안정성 개선 개념을 과적 합 문제를 피 / 감소시키는 더 큰 그림과 관련시키는 데 어려움을 겪고 있습니다.

나는 Wikipedia 와 다른 대학 웹 사이트를 보려고 노력했지만 이것이 왜 그런지 설명하지는 않습니다.


릿지 회귀가 떠 오릅니다. 링크
EngrStudent

답변:


2

선형 모형 에서 평균 제로에 대해 상관 관계가없는 오류와 전체 열 순위가있는 를 가정 할 때 최소 제곱 추정기 는 매개 변수에 대한 편향 추정치입니다. . 그러나이 추정기는 분산이 높을 수 있습니다. 예를 들어, 두 열이 서로 밀접하게 관련되어있는 경우.Y=Xβ+ϵX(XTX)1XTYβX

페널티 매개 변수 는 을 의 편향 추정기로 만들지 만 분산을 줄입니다. 또한 의 후방 기대이다 A의 베이지안 회귀 에 종래 . 그런 의미에서, 우리는 의 구성 요소 가 너무 멀지 않아야 한다는 일부 정보를 분석에 포함 시킵니다. 다시 말하지만, 우리는 의 치우친 점 추정치로 만 추정치의 분산은 줄어 듭니다.λw^βw^βN(0,1λI)βββ

설정에서 높은 차원 말할 , 최소 제곱 거의 완벽하게 데이터를 일치 맞습니다. 편견이 없지만이 추정치는 데이터의 변동에 매우 민감 할 것입니다. 왜냐하면 이러한 높은 차원에서는 활용도가 높은 점이 많기 때문입니다. 이러한 상황에서 의 일부 구성 요소의 부호 는 단일 관찰에 의해 결정될 수 있습니다. 페널티 항은 이러한 추정값을 0으로 축소하는 효과를 가지므로 분산을 줄임으로써 추정기의 MSE를 줄일 수 있습니다.XNpβ^

편집 : 초기 응답에서 관련 용지에 대한 링크를 제공했으며 급히 제거했습니다. 여기 있습니다 : http://www.jarad.me/stat615/papers/Ridge_Regression_in_Practice.pdf


1
현재 형태에서 이것은 실제로 더 많은 주석입니다. 당신은 그것을 실질적인 답변으로 육체로 만들 수 있다고 생각합니까?
Silverfish 2019

p의 바닥. 5 p / 오른쪽 상단 그림 3과 관련하여 왼쪽에있는 6은이 게시물에서 묻는 질문에 대한 주요 토론을 포함합니다.
Mark L. Stone

이것은 모두 맞지만 OP의 질문에 답이 확실하지 않습니다.
amoeba

아메바, 이후 에릭 Mittman의 대답에서 밖으로 편집 된 링크를 참조하는 위 내 댓글을 볼 jarad.me/stat615/papers/Ridge_Regression_in_Practice.pdf .
Mark L. Stone

1

수치 적 안정성과 과적 합은 어떤 의미에서 관련이 있지만 다른 문제입니다.

고전적인 OLS 문제 :

고전적인 최소 제곱 문제를 고려하십시오.

minimize(over b)(yXb)T(yXb)

해결책은 고전적인 입니다. 아이디어는 많은 수의 법에 의해 :b^=(XX)1(Xy)

limn1nXXE[xx]limn1nXyE[xy]

따라서 OLS 추정치 도 수렴됩니다. . (선형 대수 용어에서 이는 임의 변수 를 임의 변수 의 선형 범위에 선형 투영 한 것입니다 .)b^E[xx]1E[xy]yx1,x2,,xk

문제?

기계적으로 무엇이 잘못 될 수 있습니까? 가능한 문제는 무엇입니까?

  1. 작은 표본의 경우 및 의 표본 추정치 가 좋지 않을 수 있습니다.E[xx]E[xy]
  2. 열 이 공 선형 (내재적 공선 성 또는 작은 표본 크기로 인해) 인 경우, 문제는 연속적인 솔루션을 갖게됩니다! 솔루션이 고유하지 않을 수 있습니다. X
    • 경우 발생 랭크 부족이다.E[xx]
    • 회귀 문제 수에 비해 표본 크기가 작기 때문에 에 순위가 부족한 경우에도 발생합니다 .XX

추정치 가 기본 모집단에없는 표본의 패턴을 반영하기 시작 하면 문제 (1)이 과적 합을 초래할 수 있습니다 . 추정치는 실제로 존재하지 않는 및 패턴을 반영 할 수 있습니다. 및b^1nXX1nXyE[xx]E[xy]

문제 (2)는 해결책이 독특하지 않다는 것을 의미합니다. 개별 신발의 가격을 추정하려고하지만 항상 신발 한 켤레가 함께 판매된다고 상상해보십시오. 이것은 잘못된 문제이지만 어쨌든 우리가하고 있다고 가정 해 봅시다. 우리는 왼쪽 신발 가격과 오른쪽 신발 가격에 $ 50가 같다고 생각할 수 있지만 어떻게 개별 가격을 제시 할 수 있습니까? 왼쪽 신발 가격을 하고 오른쪽 신발 가격을 하시겠습니까? 우리는 모든 가능성 중에서 어떻게 선택할 수 있습니까?pl=45pr=5

페널티 소개 :L2

이제 다음을 고려하십시오.

minimize(over b)(yXb)T(yXb)+λb2

이것은 두 가지 유형의 문제 모두에 도움이 될 수 있습니다. 처벌은 당사 추정치 밀어 0에 가까워을. 이것은 계수 값에 대한 분포가 주위에 집중되기 전에 베이지안으로서 효과적으로 기능 합니다. 그것은 과적 합에 도움이됩니다. 우리의 추정치는 데이터와 가 거의 0 이라는 초기 신념을 반영합니다 .L2b0b

L2또한 정규화는 항상 잘못된 문제에 대한 고유 한 솔루션을 찾습니다. 왼쪽과 오른쪽 신발의 가격이 총 인 것을 알고 있다면 규범을 최소화하는 은 를 선택하는 입니다.$50L2pl=pr=25

이거 마법이야? 아니요. 정규화는 실제로 질문에 대답 할 수있는 데이터를 추가하는 것과 다릅니다. 어떤 의미에서 정규화는 데이터가 부족한 경우 가까운 추정치를 선택한다는 견해를 채택합니다 .L20

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.