SVM의 바이어스 항이 피쳐 벡터의 추가 차원이 아닌 별도로 추정되는 이유는 무엇입니까?


11

SVM의 최적 초평면은 다음과 같이 정의됩니다.

wx+b=0,

여기서 는 임계 값을 나타냅니다. 입력 공간을 일부 공간 매핑하는 매핑 가 있는 경우 공간 에서 SVM을 정의 할 수 있습니다.ϕ Z ZbϕZZ

wϕ(x)+b=0.

그러나 우리는 항상 매핑을 정의 하여 , 이고 최적의 후판이 ϕ 0 ( x ) = 1 x wϕ ( x ) = 0입니다.ϕϕ0(x)=1x

wϕ(x)=0.

질문 :

  1. 이미 많은 논문이 을 사용하고 있는데, 이미 매핑이 있고 매개 변수 와 theshold b를 따로 따로 추정 할 때 ?ϕ wwϕ(x)+b=0ϕwb

  2. . t. y n w ϕ ( x n )1,n w ϕ 0 ( x )=1, x

    minw||w||2
    s.t. ynwϕ(xn)1,n
    wϕ0(x)=1,x
  3. 질문 2에서 SVM의 정의가 가능하다면, 이고 임계 값은 단순히 이 될 별도로 취급하지 않습니다. 따라서 과 같은 공식을 사용 하여 일부 지원 벡터 에서 를 추정하지 않습니다. 권리?b = w 0 b = t nwϕ ( x n ) b x nw=nynαnϕ(xn)b=w0b=tnwϕ(xn)b엑스


답변:


12

왜 편견이 중요한가?

바이어스 용어 는 실제로 SVM의 특수 매개 변수입니다. 그것이 없으면 분류자는 항상 원점을 통과합니다. 따라서 SVM은 바이어스 항이없는 한 원점을 통과하지 않으면 분리 된 초평면을 최대 마진으로 제공하지 않습니다.

다음은 편향 문제의 시각화입니다. 바이어스 용어로 학습 된 SVM이 왼쪽 (오른쪽)에 표시됩니다. 그러나 두 SVM 모두 동일한 데이터 에 대해 교육을 받았지만 매우 다르게 보입니다.

여기에 이미지 설명을 입력하십시오

왜 편견을 개별적으로 다루어야합니까?

마찬가지로 벤 DAI는 지적 바이어스 기간 때문에 정규화를 개별적으로 처리한다. SVM은 (또는 정의 방법에 따라 여백 크기를 최대화합니다 .1 21||||22||||2

마진 최대화는 최소화와 동일 합니다. 이것을 정규화 용어 라고도 하며 분류기의 복잡성의 척도로 해석 할 수 있습니다. 그러나 바이어스가 분류 점수 를 모든 데이터 포인트에 대해 동일한 양만큼 위 또는 아래로 이동하기 때문에 바이어스 용어를 정규화하지 않으려 고합니다 . 특히, 바이어스는 분류기 의 모양 이나 여백 크기를 변경하지 않습니다 . 따라서 ...||||2

SVM의 바이어스 용어는 정규화되어서는 안됩니다.

그러나 실제로는 특별한 경우를 다루지 않고 바이어스를 피쳐 벡터로 밀어 넣는 것이 더 쉽습니다.

참고 : 피처 함수에 치우침을 푸시 할 때 치우침 정규화의 부작용을 최소화하려면 피처 벡터의 해당 차원을 큰 수 (예 : 로 고정하는 것이 가장 좋습니다 .ϕ0(엑스)=10


호기심에서 음모를 생성하기 위해 어떤 프로그램을 사용하셨습니까?
d0rmLife

1
@ d0rmLife : 이것은 MS PowerPoint를 사용하여 만든 만화 일뿐입니다!
Sobi


1

때때로 사람들은 SVM에서 요격을 생략하지만, 이유는 요격을 생략하기 위해 요격을 처벌 할 수 있다고 생각합니다. 즉,

우리는 데이터를 수정할 수 및 이므로 생략 그 절편 대로 커널 버전에서도 비슷한 기술을 사용할 수 있다고한다. w =(w0,wT)TXw+B= X w엑스^=(1,엑스)^=(0,)

엑스 +=엑스^ ^

그러나 가중치에 인터셉트를 넣으면 목적 함수는 원래 함수와 약간 다릅니다. 그래서 우리는 "벌칙"이라고 부릅니다.


나는 우리가 다른 목적 함수를 가질 것이라고 동의합니다. 매개 변수에 절편 를 포함시키지 않으면 최적화 문제가 발생합니다. 제약 조건이 적용되는 반면, 그렇지 않으면 문제가 있습니다 . 그러나 왜 panalizing intercept가 모델에 중요한지 이해하지 못합니다. ,||||2,||||2+2
Dejan

내 마음에 오는 것은, 우리가 교차하는 주된 이유는 아마도 이중 문제에서 intercept 가 SMO 알고리즘을 적용하는 데 중요한 제약 조건 을 가질 수 있기 때문에 가능하기 때문입니다. 상수 만 가질 것이고 이중 최적화는이 경우 더 어려울 것입니다. α=0α0
Dejan

@Petar 제가 알고있는 한 가지는이 모델의 이중 형식을 고려할 때 강력하다는 것입니다. 이 기술은 선형 구속을 제거합니다.
Ben Dai

@Petar 도메인이 더 쉬워 듀얼 최적화가 더 어려울 것이라고 생각하지 않습니다.
Ben Dai

@Petar 특정 알고리즘의 경우 어려울 수 있습니다. 그러나 수학적으로 상자 영역이 더 나을 것이라고 생각합니다.)
Ben Dai

0

이유에 추가 위에서 언급에서, 지점의 거리 의 기울기에 의해 규정 된 초평면으로는 및 절편 이다 이 어떻게 SVM의 마진 개념이 필요합니다. 당신은 변경하는 경우 절편 용어 포함 ,의 규범 많은 경우에 이해가되지 않는 작은 절편으로 최적화 할 수있는 SVM의 원인이됩니다 절편의 크기에 의해 영향을받을 것이다.엑스θ

|θ엑스+|||θ||
θθ


초평면까지의 점 거리가 정확하고 설명이 흥미로워 보이지만이 수식과 훈련 SVM 사이의 상관 관계는 보이지 않습니다. 훈련 중에이 공식이 어떻게 사용되는지 더 잘 설명하거나 추가 링크를 제공 할 수 있습니까?
Dejan

@Dejan SVM의 기본 개념은 데이터 세트의 최소 마진을 최대화하는 하이퍼 플레인을 찾는 것입니다. 마진은 초평면에 대한 점 의 "거리"( , 절대 값을 취하지 않고 분류자가 가설에 대한 신뢰를 나타냄)입니다. 있는 레이블을 곱합니다 . 곱은 . 분류기 출력이 레이블과 일치하면 양수이고 그렇지 않으면 음수입니다. 실제로 데이터 세트의 최소 마진이 가되도록 모델을 간단히 확장합니다 . {1,1}y(θTx+b)θ엑스+||θ||{1,1}1와이(θ엑스+)||θ||1||θ||
charlieh_7 19

@Dejan Andrew Andrew의 노트에서 더 자세한 내용을 찾을 수 있습니다. cs229.stanford.edu/notes/cs229-notes3.pdf
charlieh_7
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.