SVM은 어떻게 선형 분리가 가능한 무한한 형상 공간을 '찾을'수 있습니까?


36

가우스 커널이있는 SVM에 치수 특성 공간이 무한하다는 사실의 직관은 무엇입니까?


1
나는 그 질문을 정말로 이해하지 못한다. 해당 특징 공간이 무한 차원인지 또는 결과 초평면이 무엇을 의미하는지에 대한 설명을 원하십니까 ?
Marc Claesen

1
둘 다 듣고 싶지 않아요!
user36162

5
나는 이것이 흥미로운 질문이라고 생각합니다. (+1)

답변:


39

이 답변은 다음을 설명합니다.

  1. 별개의 점과 가우스 커널 (충분히 작은 대역폭)로 항상 완벽한 분리가 가능한 이유
  2. 이 분리가 선형으로 해석 될 수 있지만 데이터가있는 공간과는 다른 추상 형상 공간에서만 해석되는 방법
  3. 데이터 공간에서 피처 공간으로의 매핑을 "찾는"방법. 스포일러 : SVM에서 찾을 수 없으며 선택한 커널에 의해 암시 적으로 정의됩니다.
  4. 피처 공간이 무한 치수 인 이유

1. 완벽한 분리 달성

커널의 위치 속성으로 인해 가우시안 커널을 사용하면 완벽한 분리가 가능합니다 (커널의 위치 특성으로 인해 임의로 결정적인 경계가 결정됨). 커널 대역폭이 충분히 작은 경우 의사 결정 경계는 긍정적이고 부정적인 예를 분리해야 할 때마다 점 주위에 작은 원을 그린 것처럼 보입니다.

이 같은

(크레딧 : Andrew Ng의 온라인 머신 러닝 과정 ).

그렇다면 왜 수학적인 관점에서 이런 일이 발생합니까?

표준 설정을 고려하십시오. 가우스 커널 교육 데이터 여기서 값은 입니다. 분류기 함수를 배우고 싶습니다( x ( 1 ) , y ( 1 ) ) , ( x ( 2 ) , y ( 2 ) ) , , ( x ( n ) , y ( n ) ) y (K(x,z)=exp(||xz||2/σ2)(x(1),y(1)),(x(2),y(2)),,(x(n),y(n)) ±1y(i)±1

y^(x)=iwiy(i)K(x(i),x)

이제 가중치 어떻게 할당 할까요? 무한한 차원 공간과 2 차 프로그래밍 알고리즘이 필요합니까? 아니요, 포인트를 완벽하게 분리 할 수 ​​있다는 것을 보여주고 싶기 때문입니다. 따라서 가장 작은 분리보다 10 억 배 작게 만듭니다.두 훈련 예제 사이에서 설정했습니다 . 이것은 모든 훈련 포인트가 커널에 관한 한 10 억 시그마 떨어져 있으며, 각 포인트 는 근처 의 의 부호를 완전히 제어한다는 것을 의미합니다 . 공식적으로 우리는 σ | | x ( i )x ( j ) | | = 1 개 , Y를wiσ||x(i)x(j)||wi=1y^

y^(x(k))=i=1ny(k)K(x(i),x(k))=y(k)K(x(k),x(k))+iky(i)K(x(i),x(k))=y(k)+ϵ

여기서 은 임의로 작은 값입니다. 우리는 알고있다 때문에 작은입니다 모든 그래서, 억 sigmas 떨어진 다른 지점으로부터 우리가ϵ x ( k ) i kϵϵx(k)ik

K(x(i),x(k))=exp(||x(i)x(k)||2/σ2)0.

이후 너무 작아서, 명확히 같은 투표 하고, 분류가 훈련 데이터에 최적의 정확도를 달성한다.Y ( X ( K ) ) (Y) ( K )ϵy^(x(k))y(k)

2. 선형 분리로서 커널 SVM 학습

이것이 "무한 차원 피처 공간에서 완벽한 선형 분리"로 해석 될 수 있다는 사실은 커널 트릭에서 비롯된 것으로, 잠재적으로 무한 차원 피처 공간에서 커널을 내부 제품으로 해석 할 수 있습니다.

K(x(i),x(j))=Φ(x(i)),Φ(x(j))

여기서 는 데이터 공간에서 기능 공간으로의 맵핑입니다. 피처 공간에서 함수가 선형 함수로 즉시 작동합니다., Y ( X )Φ(x)y^(x)

y^(x)=iwiy(i)Φ(x(i)),Φ(x)=L(Φ(x))

여기서 선형 함수 는 피처 공간 벡터 과 같이 정의 됩니다.vL(v)v

L(v)=iwiy(i)Φ(x(i)),v

이 함수는 에서 선형입니다. 왜냐하면 고정 된 벡터를 가진 내부 제품의 선형 조합 일뿐입니다. 피처 공간에서 결정 경계 은 선형 함수의 레벨 세트 인 입니다. 이것은 피쳐 공간에서 하이퍼 플레인의 정의입니다.Y ( X ) = 0 L ( V ) = 0vy^(x)=0L(v)=0

3. 맵핑 및 기능 공간 이해

참고 : 이 섹션에서표기법은 훈련 데이터가 아닌임의의점세트를 나타냅니다. 이것은 순수한 수학입니다. 훈련 데이터는이 섹션에 전혀 포함되지 않습니다! nx(i)n

커널 메서드는 실제로 피처 공간이나 매핑 명시 적으로 "찾기"또는 "계산"하지 않습니다 . SVM과 같은 커널 학습 방법은 작동하지 않아도됩니다. 커널 함수 만 필요합니다 .KΦK

즉, 대한 수식을 작성할 수 있습니다 . 매핑 하는 피처 공간 은 일종의 추상 (및 잠재적으로 무한 차원)이지만 본질적으로 매핑은 커널을 사용하여 간단한 피처 엔지니어링을 수행합니다. 최종 결과 측면에서 커널을 사용하여 학습 한 모델은 선형 회귀 및 GLM 모델링에 널리 적용되는 기존 기능 공학과 다르지 않습니다. 예를 들어 회귀 수식에 공급하기 전에 양의 예측 변수를 기록하는 것과 같습니다. 수학은 대부분 커널이 SVM 알고리즘과 잘 작동하도록하는 데 도움이됩니다. SVM 알고리즘은 희소성의 장점이 있으며 큰 데이터 세트로 확장 할 수 있습니다.ΦΦΦ

여전히 관심이 있다면 작동 방식은 다음과 같습니다. 본질적으로 우리는 , 공간과 내부 제품이 정의에 의해 유지되도록 구성하십시오. 이를 위해 각 벡터가 데이터가있는 공간 에서 실수 까지의 함수 인 추상 벡터 공간 정의합니다 . 벡터 에서의 커널 슬라이스 한정된 선형 조합으로 형성 기능이다 보다 콤팩트하게 작성하는 것이 편리합니다V X R은 f를 V의 F ( X ) = N Σ는 i가 = 1 α K ( X ( I ) , X )Φ(x),Φ(y)=K(x,y)VXRfV

f(x)=i=1nαiK(x(i),x)
f
f=i=1nαiKx(i)
여기서 는 커널의 "슬라이스"를 제공하는 함수 입니다.Kx(y)=K(x,y)x

공간의 내부 제품은 일반적인 내적 제품이 아니라 커널을 기반으로 한 추상 내부 제품입니다.

i=1nαiKx(i),j=1nβjKx(j)=i,jαiβjK(x(i),x(j))

이러한 방식으로 정의 된 피처 공간을 사용하여 는 매핑으로 각 포인트 를 해당 시점의 "커널 슬라이스"로 가져갑니다.ΦXVx

Φ(x)=Kx,whereKx(y)=K(x,y).

가 양의 한정된 커널 인 경우 가 내부 제품 공간 임을 증명할 수 있습니다 . 자세한 내용은이 백서를 참조하십시오. (이 점을 지적한 f 코 펜스에게!)VK

4. 피처 공간이 무한 치수 인 이유는 무엇입니까?

이 답변 은 멋진 대수적 설명을 제공하지만 직관과 증거가 모두 포함 된 기하학적 관점이 있습니다.

직관

고정 소수점 에 대해 커널 슬라이스 함수 있습니다. 그래프 단지 가우스 중심 범프이다 . 피처 공간이 유한 한 차원이라면 고정 된 점 세트에서 유한 범프 세트를 가져 와서 다른 곳에서는 가우시안 범프를 형성 할 수 있습니다. 그러나 분명히 우리가 이것을 할 수있는 방법은 없습니다. 새로운 범프는 이전 범프에서 멀리 떨어져 있기 때문에 오래된 범프에서 새 범프를 만들 수 없습니다. 따라서, 우리가 가진 피처 벡터 (범프)의 수에 관계없이 항상 새로운 범프를 추가 할 수 있으며 피처 공간에서 이들은 새로운 독립 벡터입니다. 피처 공간은 유한 차원이 될 수 없습니다. 무한해야합니다.zKz(x)=K(z,x)Kzz

증명

우리는 유도를 사용합니다. 만약 포인트의 임의의 세트가 있다고 가정 벡터가 예를 는 피처 공간에서 선형 적으로 독립적입니다. 이제이 점 과 구별 되는 점 찾으십시오. 실제로 모든 점에서 10 억 시그마 떨어져 있습니다. 우리는 이 첫 번째 특징 벡터 선형으로 독립적 이라고 주장합니다 .x(1),x(2),,x(n)Φ(x(i))x(n+1)nΦ(x(n+1))nΦ(x(i))

모순에 의한 증거. 반대로

Φ(x(n+1))=i=1nαiΦ(x(i))

이제 내부의 제품을 임의의 가져 가십시오 . 신원 에 의해xΦ(z),Φ(x)=K(z,x)

K(x(n+1),x)=i=1nαiK(x(i),x)

여기서 는 자유 변수 방정식은 두 함수가 동일하다는 것을 나타내는 항입니다. 특히, 을 중심으로 한 가우시안은 다른 시점에서 에서 가우스의 선형 조합으로 표현 될 수 있다고 합니다. 기하학적으로 다른 점을 중심으로 한 가우시안 범프의 유한 조합에서 한 점을 중심으로 한 가우시안 범프를 만들 수 없다는 것은 명백합니다. 특히 다른 모든 가우시안 범프가 10 억 시그마 떨어져있을 때. 따라서 선형 의존성에 대한 우리의 가정은 우리가 보여준 것처럼 모순을 초래했습니다.xx(n+1)x(i)


6
완벽한 분리는 불가능합니다. 대응 예 : (0,0, ClasssA), (0,0, ClassB). 이 데이터 세트를 분리하는 행운을 빕니다!
Anony-Mousse

4
그것은 ... 기술적으로 정확하고, 최고의 종류입니다! 공감하십시오. 게시물에 메모를 추가하겠습니다.
Paul

3
(다른 클래스의 샘플 사이에 최소 거리가 필요한 경우 포인트가 합리적이라고 생각합니다.이 시나리오에서는 SVM이 가장 가까운 이웃 분류 기가됩니다.)
Anony-Mousse

1
유한 훈련 세트 사례 만 다루고 있으므로 작업 할 개별 포인트 훈련 세트가 주어지면 항상 포인트 사이에 최소 거리가 있습니다 . n
Paul

@Paul 섹션 2와 관련하여 질문이 있습니다. 하자 트레이닝 포인트 우리 RKHS에 representer 수 및 임의의 새로운 지점에 대한 되도록 따라서 기능 일부 . 나에게 이것은 선형 회귀를 위해 의 열 공간에있는 의 함수 공간 버전과 같 으며 선형성이 실제로 오는 곳입니다. 이 설명이 정확 해 보입니까? 나는 아직도이 RKHS 물건을 배우고 있습니다. kix(i)kxxy^(x)=iwiy(i)ki,kx=iwiy(i)ki(x)y^=izikiziRy^X
jld

12

가우스 커널의 커널 매트릭스는 항상 대해 전체 순위를 . 즉, 새 예를 추가 할 때마다 순위가 씩 증가합니다 . 매우 작게 설정하면 이것을 보는 가장 쉬운 방법 입니다. 그런 다음 커널 매트릭스는 거의 대각선입니다. 1σ를x1,...,xm1σ

순위가 항상 1 씩 증가한다는 사실 은 피처 공간의 모든 투영 가 선형 독립형 (직교 형이 아닌 독립형) 임을 의미합니다 . 따라서 각 예제는 투영 범위에 새 차원을 추가합니다 . 셀 수없이 많은 예를 추가 할 수 있으므로 피처 공간의 크기는 무한해야합니다. 흥미롭게도 이므로 입력 공간을 피처 공간으로 투영하는 모든 구는 구형에 있습니다. . 그럼에도 불구하고 구의 형상은 평평합니다. 당신은 그것에 대한 자세한 내용을 읽을 수 있습니다Φ ( X 1 ) , . . . , Φ ( x m ) | | Φ ( x ) | | ² H = k ( x , x ) = 1Φ(x)Φ(x1),...,Φ(xm)||Φ(x)||H²=k(x,x)=1

CJC Burges (1999). 커널 기반 방법의 기하학과 불변성. B. Schölkopf, CJC Burges 및 AJ Smola (Eds.)에서 커널 방법의 발전은 벡터 학습을 지원합니다 (pp. 89–116). MIT Press.


나는 아직도 그것을 이해하지 못하지만, 당신은 어쨌든
찬성

형상이 왜 평평한 지 또는 왜 무한 치수인지 이해하지 못합니까? 공감에 감사드립니다.
fabee

100 개의 예제가있는 경우 피쳐 공간이 100 차원입니까 아니면 이미 무한 차원입니까? "무수하게"무한히 많은 예를 추가 할 수있는 이유는 무엇입니까? 셀 수없는 무한대 아닌가요? 여기에서 셀 수있는 / 언할 수없는 것이 중요한 이유는 무엇입니까? 나는 아직 "평평한 구체"에 대해 생각조차하지 않았다. : 설명해 주셔서 감사합니다!
stmax

5
모든 새로운 예제가 이전의 모든 예제와 완전히 독립적이라는 것을 믿기를 바랍니다 (같은 제외 ). 에서 당신이 그렇게 할 수 없습니다 넘어 모든 점 다른 사람에 선형 적으로 의존해야합니다. 가우시안 RKHS의 경우 100 개의 서로 다른 예가있는 경우 무한 치수 공간의 100 차원 하위 ​​공간에 걸쳐 있습니다. 따라서 스팬은 유한 차원이지만 그 범위가 사는 피처 공간은 무한 차원입니다. 모든 새로운 점이 새로운 차원이고 에 셀 수없이 많은 점이 있기 때문에 무한대는 셀 수 없습니다 . xRnnRnRn
fabee

@ fabee : 나는 다른 방법으로 시도했지만, 당신은 그것에 대해 많이 알고있는 것처럼 보입니다. 내가 '올바른'것을 얻었는지 아닌지 내 대답을 볼 수 있습니까?

5

배경과 표기법에 대해서는 지원 벡터에서 결정 경계를 계산하는 방법에 대한 답변을 참조하십시오 . .

따라서 '원래'공간의 특징은 벡터 , 이진 결과 이며 라그랑주 승수는 입니다.xiyi{1,+1}αi

커널은 ( ' '는 내부 제품을 나타냄 로 쓸 수있는 것으로 알려져 있습니다. 여기서 는 (암시적이고 알려지지 않음) 새로운 기능 공간으로 변환.K(x,y)=Φ(x)Φ(y)Φ

이 가 어떻게 보이는지에 대한 '직관적 인'설명 을 하려고 노력할 것입니다. 답변은 공식적인 증거가 아니며, 이것이 어떻게 작동하는지에 대한 느낌주고 싶습니다 . 내가 틀렸다면 주저하지 말고 바로 잡으십시오. 내 설명의 기초는 이 pdf의 섹션 2.2.1입니다.Φ

내 특징 공간 (그래서 내 )을 선형 분리가 해결되는 '새로운'특징 공간 으로 '변환'해야합니다 .xi

각 관측 값 대해 함수를 정의 하므로 학습 샘플의 각 요소에 대해 함수가 있습니다 . 이러한 함수 는 벡터 공간에 걸쳐 있습니다. 벡터 공간은 스팬으로 는, 참고 . ( 은 훈련 샘플의 크기입니다).xiϕi(x)=K(xi,x)ϕiϕiϕiV=span(ϕi,i=1,2,N)N

이 벡터 공간 는 선형 분리가 가능한 벡터 공간이라고 주장하려고 합니다. V 범위를 정의하여 벡터 공간 의 각 벡터를 의 선형 조합으로 작성할 수 있습니다 . 즉 . 여기서 는 실수입니다. 따라서 실제로Vϕii=1NγiϕiγiV={v=i=1Nγiϕi|(γ1,γ2,γN)RN}

참고는 벡터의 좌표 벡터 공간에서 .(γ1,γ2,γN)vV

N 은 학습 샘플의 크기이므로 가 선형 독립 인지 여부에 따라 벡터 공간 의 크기는 까지 올라갈 수 있습니다 . 으로 (상기 문헌 참조, 우리는 정의 것을이 수단이 방식) 의 치수 사용 된 커널에 따라 달라집니다 및 훈련 샘플의 크기까지 갈 수 있습니다.VNϕiϕi(x)=K(xi,x)ϕV

커널은 '복잡한 정도'는 경우 모든 독립적 인 것 다음의 치수 될 것입니다 , 훈련 샘플의 크기입니다.ϕi(x)=K(xi,x)VN

원래 피처 공간을 매핑하는 변환 은 다음과 같이 정의됩니다.V

Φ:xiϕi(x)=K(xi,x) .

이 맵 는 원래 피쳐 공간을 훈련 샘플 크기에 해당하는 차원을 가질 수있는 벡터 공간에 매핑합니다. Φ따라서 는 훈련 샘플의 각 관측 값을 벡터가 함수 인 벡터 공간에 매핑합니다. 내 훈련 샘플 의 벡터 는 의 벡터, 즉 번째 좌표가 1을 제외하고 좌표가 모두 0 인 벡터 '매핑'됩니다 .ΦxiVϕii

분명히,이 변환은 (a) 커널에 의존하고 (b) 훈련 샘플의 값에 의존 하며 (c) 커널에 따라 훈련 샘플의 크기에 해당하는 차원을 가질 수 있으며 ( d)의 벡터 모습 여기서 실수이다.xiVi=1Nγiϕiγi

지지 벡터로부터 결정 경계를 계산하는 방법 의 함수 를 보 시겠습니까? 임을 알 수 있습니다 . SVM에서 발견 한 결정 경계는 입니다.f(x)f(x)=iyiαiϕi(x)+bf(x)=0

즉, 는 의 선형 조합 이고 공간 에서 선형 분리 초평면 입니다. 의 특별한 선택입니다. 즉 ! f(x)ϕi f(x)=0Vγiγi=αiyi

우리의 관측 알려져있다는 SVM을 발견했다고 라그랑주 승수입니다. 다시 말해, SVM은 커널을 사용하고 2 차 프로그래밍 문제를 해결함으로써 -spave 에서 선형 분리를 찾습니다.yiαiV

이것은 '커널 트릭'을 통해 원래의 특징 공간을 다른 차원 의 새로운 특징 공간 로 '암시 적으로'변환하는 방법을 직관적으로 이해 합니다. 이 차원은 사용하는 커널에 따라 다르며 RBF 커널의 경우이 차원은 학습 샘플의 크기까지 올라갈 수 있습니다. 훈련 샘플은 어떤 크기라도 가질 수 있으므로 이것은 '무한'까지 올라갈 수 있습니다. 명백히, 매우 높은 공간에서는 과적 합의 위험 이 증가합니다.V

따라서 커널은 SVM이 기능 공간을 변환 할 수있는 기술입니다 . 가우시안 커널이 PCA에 그렇게 마법적인 이유무엇입니까?


+1 이것은 견고합니다. 나는이 자료를 내 자신의 설명 스타일로 번역하고 내 대답에 추가했습니다.
Paul

5

불행히도, fcop의 설명은 매우 틀립니다. 우선 "커널을 다음과 같이 쓸 수있는 것으로 알려져있다. 여기서 ...는 새로운 기능 공간으로 (암시적이고 알려지지 않은) 변환이다." 알 수 없습니다. 이것은 실제로 지형지 물이 매핑되는 공간이며 RBF의 경우와 같이 무한 치수가 될 수있는 공간입니다. 모든 커널은 훈련 예제의 변형 된 특징 벡터를 가진 변형 된 특징 벡터의 내부 곱을 취하여 결과에 일부 기능을 적용합니다. 따라서이 높은 차원의 특징 벡터를 암시 적으로 나타냅니다. 예를 들어 x ^ 2 + 2xy + y ^ 2 대신 (x + y) ^ 2를 쓰십시오. 이제 무한 함수가 지수 함수로 암시 적으로 표현하는 것을 생각하십시오 ... 무한 기능 공간이 있습니다.

SVM에 대해 생각하는 올바른 방법은 기능을 무한 크기 차원 공간에 매핑하는 것입니다.이 차원 공간은 훈련 세트 크기만큼 클 수있는 또 다른 유한 차원 "Kernel"기능 공간에서 암시 적으로 표현할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.