나는 (와 능선 회귀 사이의 연결 웹에서 읽기 어딘가를 가진 기억 와 PCA 회귀 정규화가) 사용하는 동안 hyperparameter의와 -regularized 회귀 분석을 , 경우 , 다음 회귀와 PC 변수를 제거하는 것과 같습니다 가장 작은 고유 값.
- 왜 이것이 사실입니까?
- 이것이 최적화 절차와 관련이 있습니까? 순진하게, 나는 그것이 OLS와 동등한 것으로 기대했을 것입니다.
- 아무도 이것에 대한 언급이 있습니까?
나는 (와 능선 회귀 사이의 연결 웹에서 읽기 어딘가를 가진 기억 와 PCA 회귀 정규화가) 사용하는 동안 hyperparameter의와 -regularized 회귀 분석을 , 경우 , 다음 회귀와 PC 변수를 제거하는 것과 같습니다 가장 작은 고유 값.
답변:
하자 센터링 될 N × P의 예측 매트릭스의 특이 값 분해 고려 X = U S V를 ⊤ 와 S는 대각 성분을 가진 대각 행렬 인 S I .
정규 방정식의 피팅 값 (OLS) 회귀 주어진다 Y O L S = X β O L S = X ( X ⊤ X ) - 1 X ⊤ Y = U U ⊤ Y . 리지 회귀 피팅 값이 주어진다 Y r에 난 거라고 g의 E = X β r에 I D g E = X ( X ⊤ X
여기에서 우리는 그것을 볼 수 있습니다 :
만약 다음 Y R I D g E = Y O L S .
이는 융기 회귀가 PCR의 "부드러운 버전"으로 볼 수 있음을 의미합니다.
릿지 회귀는 실제로 성능이 향상되는 경향이 있습니다 (예 : 교차 검증 된 성능이 더 높음).
한 가지 좋은 참고 자료는 통계 학습의 요소 , 섹션 3.4.1 "교차 회귀"입니다.
이 스레드를 참조하십시오 : 회귀에서의 릿지 정규화 해석 , 특히 @BrianBorchers의 답변.
통계 학습의 요소는이 연결에 대해 큰 토론을합니다.
이 연결과 논리를 해석하는 방법은 다음과 같습니다.
PCA 연결은 Ridge Regression이 다중 공선 성이 발생하는 위치를 판별하기 위해 피처의 선형 조합을 계산합니다. 가장 작은 분산을 갖는 피처의 선형 조합 (원리 성분 분석) (따라서 PCA에서 더 작은 특이 값과 더 작은 고유 값)이 가장 어려운 처벌을받습니다.
이런 식으로 생각하십시오. 가장 작은 분산을 갖는 피처의 선형 조합에 대해, 우리는 가장 유사한 피처를 발견하여 다중 공선 성을 유발합니다. Ridge는이 선형 조합이 설명하는 방향에 따라 기능 세트를 줄이지 않으므로 해당 방향에 해당하는 원래 기능에 가장 큰 불이익이 가해집니다.
선형 방정식을 고려하십시오
보통 최소 제곱은 모수 벡터를 결정합니다 같이
Ridge regression and PCA present two methods to avoid these problems. Ridge regression replaces in the above equation for by
PCA replaces by
Both methods thus weaken the impact of subspaces corresponding to small values. PCA does that in a hard way, while the ridge is a smoother approach.
More abstractly, feel free to come up with your own regularization scheme