재귀 (온라인) 정규화 된 최소 제곱 알고리즘


12

누구든지 Tikhonov 정규화 (정규 최소 제곱)에 대한 온라인 (재귀) 알고리즘의 방향을 알려 줄 수 있습니까?

오프라인 설정에서 n-fold cross validation을 사용하여 λ 를 찾은 원래 데이터 세트를 사용하여 β^=(XTX+λI)1XTY 를 계산 합니다. y = x ^ T \ hat \ beta를 사용하여 주어진 x에 대해 새로운 y 값을 예측할 수 있습니다 .λyxy=xTβ^

온라인 설정에서 나는 지속적으로 새로운 데이터 포인트를 그립니다. 전체 데이터 세트 (원본 + 신규)에서 전체 재 계산을 수행하지 않고 새로운 추가 데이터 샘플을 그릴 때 \ hat \ beta를 어떻게 업데이트 할 수 β^있습니까?


1
Tikhonov에서 정규화 된 최소 제곱은 아마도 순수 선형 문제 (여기에서와 같이)에 적용될 때에도 통계 원에서 더 일반적으로 Levenberg-Marquardt 라고 합니다. 온라인 Levenberg Marquardt에 관한 논문이 있습니다 . 그게 도움이되는지 모르겠습니다.
Glen_b-복지 주 모니카

답변:


11

β^n=(XXT+λI)1i=0n1xiyi

하자 , 다음Mn1=(XXT+λI)1

β^n+1=Mn+11(i=0n1xiyi+xnyn)

Mn+1Mn=xnxnT , 우리는 얻을 수 있습니다

β^n+1=β^n+Mn+11xn(ynxnTβ^n)

에 따르면 우드 베리 공식 , 우리가

Mn+11=Mn1Mn1xnxnTMn1(1+xnTMn1xn)

결과적으로

β^n+1=β^n+Mn11+xnTMn1xnxn(ynxnTβ^n)

Polyak 평균화 는 를 사용하여 을 범위가 근사값에 사용할 수 있음을 나타냅니다. 에 . 귀하의 경우 재귀에 가장 적합한 를 선택하려고 시도 할 수 있습니다 .M 1 nηn=nα α0.51αMn11+xnTMn1xnα0.51α


배치 그라디언트 알고리즘을 적용하면 작동한다고 생각합니다.

β^n+1=β^n+ηnni=0n1xi(yixiTβ^n)


각각의 연속 배치가 약간 다른 분포에서 추출되는 새로운 데이터의 배치 샘플로 회귀자를 업데이트하면 어떻게됩니까? 즉 비 IID. 이 경우 회귀자가 새 데이터를 고려하지만 이전 데이터의 로컬 성 (이전 배치)에 대한 예측에는 영향을 미치지 않기를 원합니까? 유용하다고 생각되는 문헌을 알려 주시겠습니까?
rnoodle

좋은 질문이지만 죄송합니다. 현재 회답에서 배치 그라디언트 수식을 사용하고 있거나 행렬 형식을 직접 적용하여 근사하는 경우 모델에 얼마나 영향을 미치는지 알 수 없습니다. eta ^ (-alpha) * X (Y-X 'beta_n) 여기서 X, Y는 새로운 배치 샘플입니다
lennon310

안녕하세요, 정규화 계수가 재귀 업데이트 수식에 포함되지 않은 것 같습니다. 또는 M 행렬의 역 초기화에만 중요합니까?
Peng Zhao

4

지금까지 아무도 다루지 않은 점은 일반적 으로 데이터 포인트가 추가 될 때 정규화 매개 변수 일정하게 유지하는 것이 의미가 없다는 것 입니다. 그 이유는 는 일반적으로 데이터 포인트 수에 따라 선형 적으로 증가하지만 정규화 용어 는 그렇지 않습니다. X β - Y 2λλXβy2λβ2


흥미로운 지적입니다. 그러나 왜 정확히 "이치에 맞지 않습니까"? 일정하게 유지하는 것은 수학적으로 유효하기 때문에 어떤 종류의 통계적 맥락에서 "이해할 수 없음"을 이해해야합니다. 그러나 어떤 맥락? 무엇이 잘못 되었나요? 제곱의 합을 평균 제곱으로 바꾸는 것과 같은 쉬운 해결책이 있습니까? λ
whuber

제곱의 합을 스케일링 된 버전 (예 : 평균 제곱 오차)으로 바꾸는 것은 의미가 있지만 단순히 재귀 최소 제곱을 사용하면 달성 할 수 없습니다.
Brian Borchers

잘못된 선택에 대해서는 선택에 따라 많은 수의 데이터 포인트가 포함 된 매우 정규화되지 않은 솔루션 또는 적은 수의 데이터 포인트가 포함 된 매우 과도하게 규제 된 솔루션을 얻게됩니다. λ
Brian Borchers

의심 할 수도 있지만, 데이터 포인트를 수신 한 후 를 초기에 튜닝 한 다음 더 많은 데이터 포인트를 추가하면 더 많은 데이터 포인트와 동일한 가진 결과 솔루션 이 과잉 또는 과소 규정인지 여부는 새로운 데이터 포인트. 데이터 포인트가 다변량 분포의 iid 샘플처럼 작동한다고 가정하면이를 분석 할 수 있습니다.이 경우 단계 에서 를 으로 설정해야합니다 . 이렇게하면 업데이트 수식이 변경되지만 규칙적이고 간단한 방식으로 효율적인 계산이 가능할 수 있습니다. (+1)N λλnλλN/nN
우버

3

아마도 확률 적 그라디언트 디센트 와 같은 것이 여기에서 작동 할 수 있습니다. 계산 초기 데이터 세트에 위의 식을 이용하여, 즉 당신의 시작 예상됩니다. 각각의 새로운 데이터 포인트에 대해 한 단계의 경사 하강을 수행하여 모수 추정치를 업데이트 할 수 있습니다.β^


나는 SGD (아마도 미니 배치)가 이와 같은 온라인 문제, 즉 함수 근사치를 업데이트하는 방법이라는 것을 알고 있습니다.
rnoodle

1

선형 회귀 분석에서 한 가지 가능성은 여기에 설명 된대로 의 QR 분해를 직접 업데이트하는 입니다. 새로운 각 데이터 포인트가 추가 된 후 를 다시 추정하지 않는 한 능선 회귀로 매우 유사한 것을 수행 할 수 있다고 생각합니다.λXλ


0

다음은 Woodbury 수식을 사용하는 것과 비교하여 대안이면서 덜 복잡한 방법입니다. 참고 와 같이 쓸 수있다 합계 . 우리는 온라인으로 물건을 계산하고 합계가 날아 가기를 원하지 않기 때문에 대체 수단 ( 및 )을 사용할 수 있습니다.XTXXTyXTX/nXTy/n

와 를 다음 과 같이 쓰면 :Xy

X=(x1TxnT),y=(y1yn),

및 ( 번째 행 까지 계산)에 대한 온라인 업데이트를 다음과 같이 작성할 수 있습니다 .XTX/nXTy/nt

At=(11t)At1+1txtxtT,

bt=(11t)bt1+1txtyt.

그러면 의 온라인 견적 이됩니다β

β^t=(At+λI)1bt.

이것은 관측치를 추가 할 때 일정하게 유지되는 해석에도 도움이됩니다 .λ

이 절차는 https://github.com/joshday/OnlineStats.jl 이 선형 / 릿지 회귀의 온라인 추정치를 계산 하는 방법 입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.