회귀 분석에서 바이어스 (절편) 용어를 축소하지 않는 이유


21

선형 모델 의 경우 수축 항은 항상 입니다.P ( β )y=β0+xβ+εP(β)

바이어스 (절편) 항 축소하지 않는 이유는 무엇입니까 ? 신경망 모델에서 바이어스 용어를 줄여야합니까?β0


scikit-learn에서 사용되는 로지스틱 회귀 분석을위한 liblinear 라이브러리는 바이어스 용어에 불이익을줍니다 (이것은 구현 아티팩트라고 생각합니다. 바이어스는 추가 입력 변수로 처리됩니다)
seanv507

답변:


33

통계 학습의 요소들 Hastie et al. 능선 회귀를 다음과 같이 정의합니다 (3.4.1 장, 방정식 3.41) : 즉 능선 위약금에서 절편 항 을 명시 적으로 제외합니다 . β 0

β^ridge=argminβ{i=1N(yiβ0j=1pxijβj)2+λj=1pβj2},
β0

그런 다음 그들은 씁니다.

[...] 인터셉트 이 페널티 기간에서 제외되었습니다. 절편의 처벌은 절차가 대해 선택된 원점에 의존하게 할 것이다 . 즉, 각 목표 상수 를 추가하면 단순히 같은 양 만큼 예측이 이동하지 않습니다 . Y c y i cβ0Ycyic

실제로 절편 항이있는 경우 를 모든 추가 하면 만큼 증가 하고 이에 따라 모든 예측 된 값 도 만큼 증가합니다 . 가로 채기가 불이익을받는 경우에는 사실이 아닙니다. 이 보다 작아야 .cyiβ0cy^icβ0c

사실, 적절한 회귀 조건이 있는지에 따라 선형 회귀의 훌륭하고 편리한 여러 속성이 있습니다. 예를 들어, 의 평균값과 은 동일하며, 결과적으로 제곱 된 다중 상관 계수 은 결정 계수 같습니다 : 예를 들어이 스레드 참조 설명 : 다중 상관 계수 과 결정 계수기하학적 해석 .yiy^iRR2

(R)2=cos2(y^,y)=y^2y2=R2,
RR2

요격에 대한 벌칙은 더 이상 사실이 아닌 것으로 이어질 것입니다.


2

축소 또는 정규화의 목적을 상기하십시오. 학습 알고리즘이 학습 데이터를 과도하게 적합하게하거나 이와 동등한 것을 방지하기 위해-임의로 큰 매개 변수 값을 선택하지 않도록합니다. 소음이있을 때 훈련 사례가 거의없는 데이터 세트의 경우가 더 많습니다 (소음의 존재와 그 영향에 대한 매우 흥미로운 논의는 Yaser Abu-Mustafa의 "데이터 학습"에서 설명). 정규화가없는 잡음이 많은 데이터에 대해 학습 한 모델은 보이지 않는 일부 데이터 포인트에서 성능이 저하 될 수 있습니다.

이를 염두에두고 두 클래스로 분류하려는 2D 데이터 포인트가 있다고 가정하십시오. 바이어스 파라미터를 제외한 모든 파라미터를 고정한 상태에서 바이어스 항을 변경하면 경계가 위 또는 아래로 이동합니다. 이를보다 높은 차원의 공간으로 일반화 할 수 있습니다.

학습 알고리즘은 바이어스 용어에 임의로 큰 값을 넣을 수 없습니다. 이로 인해 총 손실 값이 발생할 수 있습니다 (모델이 학습 데이터에 적합하지 않음). 다시 말해, 어떤 훈련 세트가 주어지면, 당신 (또는 학습 알고리즘)은 비행기를 실제 비행기에서 임의로 멀리 이동할 수 없습니다.

따라서 편향 항을 축소 할 이유가 없으며, 학습 알고리즘은 과적 합의 위험없이 좋은 것을 찾습니다.

마지막 참고 사항 : 분류를 위해 고차원 공간에서 작업 할 때 바이어스 용어를 엄격하게 모델링 할 필요가 없다는 논문을 보았습니다. 더 많은 차원이 추가되면 두 클래스를 분리 할 가능성이 더 많으므로 선형으로 분리 가능한 데이터에 적합합니다.


"분류를 위해 고차원 공간에서 작업 할 때 바이어스 용어를 엄격하게 모델링 할 필요가 없다"는 논문을 참조 할 수 있습니까?
chandresh

1

가로 채기 용어는 절대 축소에 영향을받지 않습니다. 일반적인 "수축"(즉, 정규화) 제형은 정규화 용어를 손실 함수에 넣습니다.

RSS(β)=yiXiβ2

RegularizedLoss(β)=RSS(β)λf(β)

f(β)λ

βP(β)β0y=Xβ+ϵX1s

이제 신경망의 정규화에 대해 말할 수 없습니다. 신경망의 경우 편향 항의 축소를 피하거나 위에서 설명한 공식과 다르게 정규화 된 손실 함수를 설계 할 수 있습니다. 나도 몰라 그러나 가중치와 바이어스 용어가 함께 정규화되어 있다고 생각합니다.


2
그것은 협약에 의존하지만, 예를 들어 Hastie et al. 절편이 불이익을받지 않도록 능선 회귀를 정의하십시오 (내 답변 참조). 나는 이것이 다른 것보다 더 표준 적이라고 생각합니다.
amoeba는

1

David Marx의 위의 대답이 옳은지 확실하지 않습니다. Andrew Ng에 따르면, 일반적으로 바이어스 / 절편 계수는 선형 회귀에서 정규화되지 않으며, 어떤 경우 든 정규화되었는지 여부에 큰 차이가 없습니다.


1

가장 간단한 설명을 한 다음 확장하겠습니다.

와이=ε
이자형[ε]=이자형[와이]0

β

ββ0

와이=β0+ε
이자형[와이]=β0+이자형[ε]
이자형[ε]=0β0=μ=이자형[와이]

이 모델은 원래 모델만큼 섹시하지는 않지만 실제로 어리 석습니다. 그러나 합법적 인 모델입니다. 예를 들어 ANOVA를 실행할 수 있습니다.

결론적으로, 절편이 수축되지 않도록 의도 된대로 수행해야합니다. 계열의 평균 포착β0=이자형[와이]

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.