때 "단위 분산"능형 회귀 추정기의 한계


21

에 단위 제곱합 (즉, 단위 분산) 이 있어야한다는 추가 제약 조건으로 능선 회귀를 고려하십시오 . 필요한 경우 에는 단위 제곱의 합도 있다고 가정 할 수 있습니다. y를y^y

β^λ=argmin{yXβ2+λβ2}s.t.Xβ2=1.

\ lambda \ to \ infty 일\ hat {\ boldsymbol \ beta} _ \ lambda ^ * 의 제한은 무엇입니까 ?β^λλ


다음은 사실이라고 생각합니다.

  1. 경우 λ=0 깔끔한 명백한 솔루션이 : OLS 추정기 취할 β^0=(XX)1Xy 및 그 제약을 만족하도록 정규화는 (하나의 승산기 라그랑 첨가하고 구별하여 표시 가능) :

    β^0=β^0/Xβ^0.
  2. 일반적으로 해결책은 \ hat {\ boldsymbol \ beta} _ \ lambda ^ * = \ big ((1+ \ mu) \ mathbf X ^ \ top \ mathbf X + \ lambda \ mathbf I \ big) ^ {- 1} \ mathbf X ^ \ top \ mathbf y \ : \ : \ text {제한을 충족하려면 $ \ mu $가 필요합니다}. \ lambda> 0 일

    β^λ=((1+μ)XX+λI)1Xywith μ needed to satisfy the constraint.
    때 닫힌 양식 솔루션이 표시되지 않습니다 . 이 용액과 통상 RR 추정기 동등 보인다 일부 ^ * \ 람다 I가 밀폐 식 보이지 않는 제약을 만족하도록 규격화하지만 ^ * \ 람다 .λ>0 λλ
  3. 경우 λ 평소 RR 추정기

    β^λ=(XX+λI)1Xy
    분명히 0으로 수렴하지만 방향은 β^λ/β^λ의 방향으로 수렴 Xy , 일명 제 1 부분 최소 제곱 법 (PLS) 성분.

문 (2)와 (3)을 함께 사용하면 아마도 β^λ 도 적절하게 정규화 된 \ mathbf X ^ \ top \ mathbf y에 수렴한다고 Xy생각합니다. 정확하고 어느 쪽이든 설득하지 못했습니다.

답변:


17

기하학적 해석

이 질문에 설명 된 추정량은 다음 최적화 문제에 해당하는 라그랑주 승수입니다.

minimize f(β) subject to g(β)t and h(β)=1 

f(β)=yXβ2g(β)=β2h(β)=Xβ2

구면 와 타원체 의 교차점에 닿는 가장 작은 타원체 를 찾는 것으로 기하학적으로 볼 수 있습니다.f(β)=RSS g(β)=th(β)=1


표준 능선 회귀 뷰와 비교

기하학적 관점에서 이것은 구면 (오차)과 구 ( )가 닿는 지점 의 구식 뷰 (표준 능선 회귀 분석)를 변경합니다 . 우리가 지점을 찾아 새로운보기로 회전 타원체 (오류) 곡선 (제약 베타의 표준 접촉 ) . 구속 조건 과의 교차로 인해 하나의 구 (왼쪽 이미지에서 파란색)가 더 낮은 치수로 바뀝니다 .β2=tXβ2=1Xβ=1

2 차원 경우에 이것은보기 쉽다.

기하학적보기

매개 변수 를 조정하면 파란색 / 빨간색 구의 상대 길이 또는 및 의 상대 크기가 변경됩니다 Lagrangian multipliers 이론에는 공식적으로 깔끔한 방법이 있습니다. 이것은 함수 또는 반전 된 가 단조로운 함수 임을 의미한다고 정확하게 설명 하지만, 제곱 잔차의 합은 줄이면 증가한다는 것을 직관적으로 볼 수 있다고 상상합니다 .)tf(β)g(β) t λ | | β | |tλ||β||

대한 솔루션 은 0과 사이의 줄에서 논쟁 할 때입니다.βλλ=0βLS

대한 솔루션 은 첫 번째 주요 구성 요소의로드에 있습니다 (실제로 주석을 달았습니다). 이것은 가 보다 작은 입니다. 원 가 단일 지점에서 타원 에 닿는 지점입니다.βλλβ2βX2=1β2=t|Xβ|=1

이 2-d 뷰에서 구 와 회전 타원 는 점입니다. 여러 치수에서 이들은 곡선이됩니다β2=tβX2=1

(나는이 곡선은 타원이 될 것입니다하지만 더 복잡 첫 번째 상상. 당신은 타원체 상상할 수 공에 의해 교차되는 일부를 타원체 절두체의 일종이지만 단순한 타원이 아닌 가장자리가있는 것)Xβ2=1β2t


한계λ

처음에는 (이전 편집) 모든 솔루션이 동일 하고 제한적인 이 있으며 ( 지점에 있음) 글을 썼습니다 . 하지만이입니다 하지 경우λlimβ

LARS 알고리즘 또는 경사 하강으로서의 최적화를 고려하십시오. 포인트 에 대해 페널티 용어 가 SSR 용어 감소 하는 것보다 적게 증가 하도록 변경할 수있는 방향이 있다면 , 최소가 아닙니다. .ββ|β|2|yXβ|2

  • 정상적인 능선 회귀 에서는 점에서 에 대해 모든 방향으로 기울기가 입니다. 따라서 모든 유한 경우 솔루션은 일 수 없습니다 (벌칙을 증가시키지 않고 제곱 잔차의 합을 줄이기 위해 무한 단계를 수행 할 수 있기 때문에).|β|2β=0λβ=0
  • LASSO의 경우 입니다 하지 페널티은 다음과 같습니다 이후 같은 (제로 기울기 차 있지 않도록). 그 때문에 LASSO는 한계 값 초과 할 수 있습니다. 그 위의 페널티 항 ( 곱한 값 )은 잔차 제곱합이 감소하는 것보다 더 많이 증가 하기 때문에 모든 해가 0 입니다.|β|1λlimλ
  • 구속 된 능선의 경우 일반 능선 회귀와 동일합니다. 당신이 변경하는 경우 으로부터 시작 다음이 변경 될 것입니다 수직 으로 합니다 ( 타원의 표면에 수직 ) 및 페널티 기간을 변경하지만 잔차 제곱의 합을 감소시키지 않고 미소 한 공정에 의해 변경 될 수있다. 따라서 유한 의 경우 는 해결책이 될 수 없습니다.ββ β β | X β | = 1 β λ β ββ|Xβ|=1βλβ

한도에 대한 추가 참고 사항λ

에 대한 일반적인 리지 회귀 한계는 무한 리지 회귀의 다른 점에 해당합니다. 이 '이전'한계 는 가 -1 인 지점에 해당합니다 . 정규화 된 문제에서 Lagrange 함수의 미분λμ

2(1+μ)XTXβ+2XTy+2λβ
는 표준 문제에서 Lagrange 함수의 미분에 대한 해에 해당합니다

2XTXβ+2XTy+2λ(1+μ)βwith β=(1+μ)β


StackExchangeStrike에 의해 작성


+1. 고마워요, 이것은 매우 도움이됩니다! 그것을 생각할 시간이 필요합니다.
amoeba는 Reinstate Monica라고

빨간색과 검은 색 타원체의 모양이 동일하다는 점을 지적 할 가치가 있습니다. 이것이 닿는 지점이 중심을 연결하는 선에있는 이유입니다. 내 질문에 포인트 1의 멋진 그래픽 증거.
amoeba 말한다 Reinstate Monica

나는 당신의 그림에서 검은 타원에 누워 표준화 된 무한 람다가있는 능선 추정기에 해당하는 베타가 어디인지 이해하려고합니다. 나는 그것이 와 (내 표기법을 사용하여) 사이에 있다고 생각합니다. 두 점은 그림에 검은 색 원으로 표시되어 있습니다. 우리는 능선 회귀 분석을하고 무한대로 0에서 솔루션 및 증가 람다 정상화 그렇다면, 아마 같은 호를 따라 우리를 걸리지 만 이 아니라 전체 방법 PC1까지. 대신 제약 조건을 명시 적으로 지정하면 솔루션이 PC1까지 계속 진행됩니다. β X β = 1β0βXβ=1
amoeba 말한다 Reinstate Monica

+5 (나는 당신의 답변에 행복하게 상을주는 현상금을 시작했습니다). 나는 또한 대수적 파생을했고 질문에 추가하기에는 너무 많았 기 때문에 내 자신의 답변을 게시했습니다. 나는 유한 한 이 있고 그 후에도 솔루션이 더 이상 변경되지 않고 PC1에 의해 제공 될 것이라는 결론에 확신을 . 나는 대수적으로 그것을 보지 못하며 왜 그것이 존재 해야하는지에 대한 당신의 주장을 이해하지 못합니다. 알아 내려고합시다. λlim
amoeba 말한다 Reinstate Monica

@amoeba, 당신은 존재하지 않는 유한 에 대해 옳았습니다 . 나는 직관적으로 너무 많은 논쟁을 벌였고 규칙적인 능선 회귀에 대한 특정 조건에서 제한된 능선 회귀로 빠르게 뛰어 넘었습니다. 정규 RR은 점에서 에 대해 모든 방향으로 0의 기울기를 갖습니다 . 나는 ( )부터 제한된 회귀로 이것을 얻지 못한다고 생각했습니다. 그러나 는 타원체로 제한 되기 때문에 모든 방향으로 를 '이동'할 수 없습니다 . | β | 2 β = 0 β 0 β | X β | = 1 βλlim|β|2β=0β0β|Xβ|=1β
Sextus Empiricus

10

이것은 @Martijn의 아름다운 기하학적 답변에 대한 대수적 대응입니다.

우선, 가 매우 높을 때 쉽게 구할 수 있습니다 : 한계에서 손실 함수의 첫 번째 항은 무시할 수있게되므로 무시할 수 있습니다. 최적화 문제는 의 첫 번째 주요 구성 요소λ LIM λ β * λ = β * = R의 g

β^λ=argmin{yXβ2+λβ2}s.t.Xβ2=1
λX
limλβ^λ=β^=argminXβ2=1β2argmaxβ2=1Xβ2,
X(적절하게 조정). 이것은 질문에 대한 답변입니다.

이제 질문 2 번에서 언급 한 값에 대한 솔루션을 고려해 보겠습니다 . 손실 함수에 Lagrange multiplier 미분하면μ ( X β 2 - 1 )λμ(Xβ21)

β^λ=((1+μ)XX+λI)1Xywith μ needed to satisfy the constraint.

가 0에서 무한대로 커질 때이 솔루션은 어떻게 작동 합니까?λ

  • 일 때 , 확장 된 버전의 OLS 솔루션 인β * 0 ~ β 0 .λ=0

    β^0β^0.
  • 긍정적이지만 작은 값의 경우 솔루션은 일부 능선 추정기의 확장 버전입니다.β * λ ~ β λ * .λ

    β^λβ^λ.
  • 경우제한 조건을 충족시키는 데 필요한 값 은 입니다. 이는 솔루션이 첫 번째 PLS 구성 요소의 확장 버전임을 의미합니다 ( 해당 릿지 추정기의 가 임을 의미 ).( 1 + μ ) 0 λ *β * X XY ~ XY .λ=XXy(1+μ)0λ

    β^XXyXy.
  • 경우 보다 커진다 필요한 기간은 제외된다. 이제부터 솔루션은 음의 정규화 매개 변수 ( negative ridge )를 가진 의사 릿지 추정기의 확장 버전입니다 . 방향 측면에서, 우리는 이제 무한한 람다와 함께 능선 회귀를 지났습니다 .( 1 + μ )λ(1+μ)

  • 때 , 용어 에 제로 (또는 적 분산으로 갈 것 무한대) 가 아닌 한 는 의 가장 큰 특이 값입니다 . 이것은 유한하게 만들고 첫 번째 주축 비례합니다 . 우리는 설정해야 제약을 만족. 따라서 우리는λ((1+μ)XX+λI)1μ=λ/smax2+αsmaxX=USVβ^λV1μ=λ/smax2+U1y1

    β^V1.

전반적으로,이 제한된 최소화 문제는 다음 스펙트럼에서 OLS, RR, PLS 및 PCA의 단위 분산 버전을 포함합니다.

OLSRRPLSnegative RRPCA

이것은 "연속 회귀"라는 불명확 한 (?) 화학량 론 프레임 워크와 같은 것으로 보입니다 ( https://scholar.google.de/scholar?q="continuum+regression " 참조 , 특히 Stone & Brooks 1990, Sundberg 1993, Björkström & Sundberg 1999 등)에서 임시 기준 을 최대화하여 동일한 통일을 허용합니다.이는 일 때 PLS, 일 때 PLS , 일 때 PCA ,

T=corr2(y,Xβ)Varγ(Xβ)s.t.β=1.
γ=0γ=1γ0<γ<11<γ< , Sundberg 1993 참조.

RR / PLS / PCA / etc에 대해 약간의 경험이 있었음에도 불구하고, 나는 "연속 회귀"에 대해 들어 본 적이 없다는 것을 인정해야합니다. 또한이 용어를 싫어한다고 말해야합니다.


@Martijn의 것을 기반으로 한 회로도 :

단위 분산 능형 회귀

업데이트 : 음의 능선 경로로 그림이 업데이트되었습니다 . @Martijn 덕분에 모양을 제안하는 데 크게 감사드립니다. 자세한 내용은 음의 능선 회귀 이해 에서 내 대답 을 참조하십시오.


"Continuum regression"은 공통 프레임 워크 내에서 PLS와 PCA를 통합하는 것을 목표로하는 놀랍도록 광범위한 범주의 기술 중 하나 인 것 같습니다. 음의 능선을 연구하기 전까지는 우연히 들어 본 적이 없습니다 (1999 년 Bjorkstron & Sundberg, 링크, 음의 능선 질문에 대한 첫 번째 논문의 링크를 제공합니다). 화학 문학. 다른 통계 분야와 분리되어 개발 된 것으로 보이는 역사적인 이유가 있어야합니다. (1/3)
Ryan Simmons

읽고 싶은 논문은 de Jong et al. (2001) . 나는 "정식 PLS"의 공식을 한 눈에 요약 해 보았지만, 아직 수학을 엄격하게 비교하지는 않았다는 것을 인정하지만 (동일한 맥락에서 다른 여러 PLS-PCA 일반화에 대한 검토를 제공합니다). 그러나 그들이 어떻게 문제를 설명했는지는 통찰력이있을 수 있습니다. (2/3)
Ryan Simmons

링크가 죽는 경우 전체 인용은 Sijmen de Jong, Barry M. Wise, N. Lawrence Ricker입니다. "정규 부분 최소 제곱 및 연속 전력 회귀." Journal of Chemometrics, 2001; 15 : 85-100. doi.org/10.1002/… (3/3)
Ryan Simmons

1
아, 좋아요, 그리고 와 는 무한대로되지만 그 비율은 됩니다. 어쨌든, 음의 능선 회귀 경로는 PLS와 PCA 벡터 사이의 (음수) 섹터에 있어야 타원으로 투영됩니다점 PLS와 PCA 사이에 있습니다. 합니다 (무한대가는 표준 말이 아니라 무한대 경로 우선, 오른쪽으로 진행하므로, 접선, PLS 결국 PCA 부정적인) 1 + μ * ± s 2 m a x | X β = 1 | μλ1+μ±smax2|Xβ=1|μ
섹스 투스 엠피 리 쿠스

1
시각화에 추가됩니다. 현재 3 개의 RR 경로 지점 (원과 타원체 터치)이 오른쪽으로 아래쪽으로 계속 이어지고 무한대에서 원 와 타원체 해야에서 '터치' 방향으로 하여의 자리 위치를 원 접촉 타원체 | X ( β - β ) | 2 = R S S | β | 2 = t p c a | X β | 2 = 1|β|2=t|X(ββ^)|2=RSS|β|2=tpca|Xβ|2=1
섹스 투스 엠피 리 쿠스
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.