답변:
통계 학습의 요소들 Hastie et al. 능선 회귀를 다음과 같이 정의합니다 (3.4.1 장, 방정식 3.41) : 즉 능선 위약금에서 절편 항 을 명시 적으로 제외합니다 . β 0
그런 다음 그들은 씁니다.
[...] 인터셉트 이 페널티 기간에서 제외되었습니다. 절편의 처벌은 절차가 대해 선택된 원점에 의존하게 할 것이다 . 즉, 각 목표 상수 를 추가하면 단순히 같은 양 만큼 예측이 이동하지 않습니다 . Y c y i c
실제로 절편 항이있는 경우 를 모든 추가 하면 만큼 증가 하고 이에 따라 모든 예측 된 값 도 만큼 증가합니다 . 가로 채기가 불이익을받는 경우에는 사실이 아닙니다. 이 보다 작아야 .
사실, 적절한 회귀 조건이 있는지에 따라 선형 회귀의 훌륭하고 편리한 여러 속성이 있습니다. 예를 들어, 의 평균값과 은 동일하며, 결과적으로 제곱 된 다중 상관 계수 은 결정 계수 같습니다 : 예를 들어이 스레드 참조 설명 : 다중 상관 계수 과 결정 계수 의 기하학적 해석 .
요격에 대한 벌칙은 더 이상 사실이 아닌 것으로 이어질 것입니다.
축소 또는 정규화의 목적을 상기하십시오. 학습 알고리즘이 학습 데이터를 과도하게 적합하게하거나 이와 동등한 것을 방지하기 위해-임의로 큰 매개 변수 값을 선택하지 않도록합니다. 소음이있을 때 훈련 사례가 거의없는 데이터 세트의 경우가 더 많습니다 (소음의 존재와 그 영향에 대한 매우 흥미로운 논의는 Yaser Abu-Mustafa의 "데이터 학습"에서 설명). 정규화가없는 잡음이 많은 데이터에 대해 학습 한 모델은 보이지 않는 일부 데이터 포인트에서 성능이 저하 될 수 있습니다.
이를 염두에두고 두 클래스로 분류하려는 2D 데이터 포인트가 있다고 가정하십시오. 바이어스 파라미터를 제외한 모든 파라미터를 고정한 상태에서 바이어스 항을 변경하면 경계가 위 또는 아래로 이동합니다. 이를보다 높은 차원의 공간으로 일반화 할 수 있습니다.
학습 알고리즘은 바이어스 용어에 임의로 큰 값을 넣을 수 없습니다. 이로 인해 총 손실 값이 발생할 수 있습니다 (모델이 학습 데이터에 적합하지 않음). 다시 말해, 어떤 훈련 세트가 주어지면, 당신 (또는 학습 알고리즘)은 비행기를 실제 비행기에서 임의로 멀리 이동할 수 없습니다.
따라서 편향 항을 축소 할 이유가 없으며, 학습 알고리즘은 과적 합의 위험없이 좋은 것을 찾습니다.
마지막 참고 사항 : 분류를 위해 고차원 공간에서 작업 할 때 바이어스 용어를 엄격하게 모델링 할 필요가 없다는 논문을 보았습니다. 더 많은 차원이 추가되면 두 클래스를 분리 할 가능성이 더 많으므로 선형으로 분리 가능한 데이터에 적합합니다.
가로 채기 용어는 절대 축소에 영향을받지 않습니다. 일반적인 "수축"(즉, 정규화) 제형은 정규화 용어를 손실 함수에 넣습니다.
이제 신경망의 정규화에 대해 말할 수 없습니다. 신경망의 경우 편향 항의 축소를 피하거나 위에서 설명한 공식과 다르게 정규화 된 손실 함수를 설계 할 수 있습니다. 나도 몰라 그러나 가중치와 바이어스 용어가 함께 정규화되어 있다고 생각합니다.