릿지 회귀가 왜“리지”라고 불리는가, 왜 필요하며,


71

릿지 회귀 계수 추정치 β R은 을 최소화 값인β^R

RSS+λj=1pβj2.

내 질문은 :

  1. 경우 , 우리는 표현이 위의 일반적인 RSS로 줄일 것을 알 수있다. 만약 λ 라면 ? 계수의 동작에 대한 교과서 설명을 이해하지 못합니다.λ=0λ

  2. 특정 항의 개념을 이해하는 데 도움을주기 위해 RIDGE 회귀라고하는 이유는 무엇입니까? 릿지 회귀 (Ridge Regression)라는 새로운 개념을 도입해야한다는 평범한 / 일반적인 회귀에서 무엇이 잘못되었을 수 있습니까?

통찰력이 좋을 것입니다.

답변:


89

통찰력 을 요구하기 때문에 좀 더 수학적인 방법이 아닌 상당히 직관적 인 접근 방식을 사용하겠습니다.

  1. 여기 에 내 대답의 개념을 따르면, 우리는 p (공식에서) 관측 값 을 추가하여 더미 데이터를 사용하여 능선 회귀를 공식화 할 수 있습니다 . 여기서 yn+j=0 , xj,n+j=λxi,n+j=0ij 경우 n + j =0입니다. 이 확장 된 데이터 세트에 대한 새 RSS를 작성하면 추가 관측치에 각각 양식의 용어가 추가됩니다(0λβj)2=λβj2 이므로 새 RSS는 원래RSS+λj=1pβj2 입니다.이 새로운 확장 된 데이터 세트에서 RSS를 최소화하는 것은 능선 회귀를 최소화하는 것과 같습니다. 표준.

    λxλx0

    λβ

  2. 우리가 왜 능선에 대해 먼저 이야기하고 있는지 (왜 필요한지 제안) 직관적 인 감각을 제공하고 약간의 역사를 다루겠습니다. 첫 번째는 내 대답 에서 조정되었습니다 .

    β2logL

    릿지 회귀는 릿지를 "고정"합니다. 릿지를 추가하여 가능성 공간에서 릿지를 멋진 정점으로 만듭니다.

    LS의 능선이 능선 회귀에서 피크로 바 a
    [ 선명한 이미지 ]

    이름 뒤의 실제 이야기는 조금 더 복잡합니다. 1959 년에 AE Hoerl [1] 은 반응 표면 방법론에 대한 릿지 분석 을 도입 했으며, 곧 [2] 회귀의 다중 공선 성 ( 'ridge regression')을 다루는 데 적합하게되었다. 예를 들어, [3]의 RW Hoerl의 논의를 참조하십시오. 여기에서 Hoerl이 (RW가 아닌 AE) 응답 표면의 등고선 플롯 사용 *을 설명하여 로컬 최적화를 찾기 위해 어디로 향해야하는지 식별합니다 (여기서 산등성이'). 조건이 잘못된 문제에서는 매우 긴 능선 문제가 발생하고 능선 분석의 통찰력과 방법론은 회귀 분석의 가능성 / RSS와 관련 문제에 적응하여 능선 회귀를 생성합니다.

* 반응 표면 윤곽 플롯의 예 (2 차 반응의 경우)는 여기에서 볼 수 있습니다 (그림 3.9-3.12).

XTX

능선 회귀의 필요성에 대한 추가 정보는 위 목록 항목 2의 첫 번째 링크를 참조하십시오.


참고 문헌 :

[1] : Hoerl, AE (1959). 많은 변수 방정식의 최적 솔루션. 화학 공학 진행 , 55 (11) 69-78.

[2] : Hoerl, AE (1962). 능형 분석을 회귀 문제에 적용 화학 공학 진행 , 58 (3) 54-59.

[3] Hoerl, RW (1985). 릿지 분석 25 년 후. 미국 통계 학자 , 39 (3), 186-192


2
이것은 매우 도움이됩니다. 예, 통찰력을 요구할 때 직관을 찾고있었습니다. 물론 수학은 중요하지만, 수학이 저 너머에있을 때 일부 부분이 있기 때문에 개념 설명도 찾고있었습니다. 다시 감사합니다.
cgo

글 머리 기호 1에 "가중치"라는 단어가있는 이유는 무엇입니까?
amoeba

1
좋은 질문입니다. 원래 회귀에 가중치를 적용하지 않는 한 가중치를 적용 할 필요가 없습니다. 형용사를 제거했습니다. 그것은의 (이미 아주 약간 쉽게 처리 할 수 있습니다 가중 회귀 분석을 수행하는 경우) 가중 회귀로 쓸 수.
Glen_b

36
  1. λββ=0

(업데이트 : Glen_b의 답변을 참조하십시오. 이것이 올바른 역사적 이유 는 아닙니다 !)

  1. β^=(XTX+λI)1XTY.
    λI

n<p

β

ββN(0,σ2λIp)(Y|X,β)N(Xβ,σ2In)

π(β|y)π(β)f(y|β)

1(σ2/λ)p/2exp(λ2σ2βTβ)×1(σ2)n/2exp(12σ2||yXβ||2)

exp(λ2σ2βTβ12σ2||yXβ||2).

maxβRp exp(λ2σ2βTβ12σ2||yXβ||2)

maxβRp λ2σ2βTβ12σ2||yXβ||2
log
minβRp||yXβ||2+λβTβ

꽤 친숙해 보일 것입니다.

따라서 평균이 0이고 분산이 두면σ2λββσ2

n<pRppn=p||yXβ^||2=0n<p: 더 이상이 점으로 정의 된 고유 한 초평면이 없습니다. 우리는 각각 0의 잔차 제곱합을 갖는 다수의 초평면에 맞출 수 있습니다.

n=p=2n=2p=3

L1βj=0βnL1L2


1
(+1) 베이지안과 능선 회귀 간의 연결을 자세히 설명하면 답을 개선 할 수 있습니다.
Sycorax

1
윌-지금 입력하십시오.
jld

4
n<p

2
@ cgo : user777의 설명과 검색 제안은 좋은 것이지만 완전성을 위해 직관적으로 직관적 인 설명을 추가했습니다.
jld

5
+1, 좋은 대답입니다. Re n <p, LASSO는 일반적으로이 경우에 사용되며 RR과 밀접한 관련이 있다고 언급 할 수 있습니다.
gung
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.