답변:
이 질문은 Ridge Regression이 스펙트럼 분해를 사용하여 계수 추정치를 0으로 줄인다는 데모를 요구하는 것으로 보입니다. 스펙트럼 분해는 SVD ( Singular Value Decomposition) 의 쉬운 결과로 이해 될 수 있습니다 . 따라서이 게시물은 SVD로 시작합니다. 간단한 용어로 설명하고 중요한 응용 프로그램으로 설명합니다. 그런 다음 요청 된 (대수) 데모를 제공합니다. 물론 대수학은 기하학적 데모와 동일하며 단순히 다른 언어로 표시됩니다.
이 답변의 원천은 회귀 강의 노트 에서 찾을 수 있습니다 . 이 버전은 약간의 오류를 수정합니다.
인 모든 행렬 는 으로 쓸 수 있습니다 .X p ≤ n X = U D V '
n × p 는 행렬입니다.
P × P 는 행렬입니다.
P × P 는 대각선 행렬입니다.
기준 (1)과 (2)는 와 가 모두 직교 정규 행렬 이라고 주장한다 . 조건에 따라 깔끔하게 요약 할 수 있습니다.V
결과적으로 ( 는 회전을 나타냄) 이기도합니다. 이것은 아래의 릿지 회귀 분석에서 사용됩니다.V V ' = 1 p
수식을 단순화 할 수 있습니다. 이것은 대수적으로나 개념적으로 작동합니다. 여기 몇 가지 예가 있어요.
회귀 생각해보십시오. 평소와 같이 은 독립적이고 동일하게 기대치가없고 유한 분산 법칙에 따라 동일하게 분포되어 있습니다. 정규 방정식을 통한 최소 제곱 해는 SVD를 적용하고 결과 대수 혼란을 단순화하면 쉬운 통찰력을 얻을 수 있습니다.ε σ 2 β = ( X ' X ) - 1 X ' , Y .
이것과 의 유일한 차이점 은 요소의 역수가 사용된다는 것입니다 ! 다시 말해, "수식" 는 "반전" 의해 해결됩니다 .이 의사 반전은 회전 및 (단순하게 변환)을 취소하고 곱셈 ( )을 개별적으로 취소합니다. 각 주요 방향으로. D의 Y = X β X U V ' D
나중에 참조 할 수 있도록 "회전 된"추정값 는 "회전 된"응답 의 선형 조합입니다 . 계수는 (양)의 역수의 대각 요소 같 . β U ' Y D의 D - 1 I I
추정값의 공분산은 SVD를 사용하면 즉, 공분산은 각각 로 회전 된 분산이 인 직교 변수 의 공분산과 같이 작용 합니다.
모자 행렬은앞의 결과를 통해 으로 다시 작성할 수 있습니다단순한!
이후 와 그것은 그 즉시이다
SVD는 공선 성 문제를 진단하고 해결할 수 있습니다.
가장 작은 특이 값을 0으로 바꾸면 제품 만 약간 변경됩니다. 지금은, 그러나, 제로의 해당 열을 제거 , 효과적으로 변수의 수를 줄일 수있다. 이러한 열 제거와 거의 상관이 제공 , 이것은 가변 환원 기술로 효과적으로 작동 할 수있다.
열 뿐만 아니라 자체 도 표준화하십시오 . (이 방법은 우리는 더 이상에서 일정한 열 않아도 ). 들어 리지 추정기이다
이것과 의 차이점 은 를 대체한다는 것 입니다. 실제로 이것은 원본에 분수 곱합니다 . ( ) 분모가 분자보다 분명히 크기 때문에, 모수는 "0으로 축소"를 추정합니다.
이 결과는 이전에 암시 된 다소 미묘한 의미로 이해되어야합니다. 회전 추정 은 여전히 벡터 의 선형 조합 이지만 각 계수는 인수를 곱했습니다 . 따라서 회전 계수는 줄어들어야하지만 가 충분히 작은 경우 일부 자체가 실제로 크기가 커질 수 있습니다.
주의 산만을 피하기 위해이 논의에서 0보다 작은 특이 값 중 하나의 경우는 제외되었습니다. 이러한 상황에서 일반적으로 " "을 0으로 설정 하면 모든 것이 여전히 작동합니다. 일반화 된 역함수 가 정규 방정식을 풀기 위해 사용될 때 일어나는 일 입니다.