답변:
이 답변은 다음을 설명합니다.
커널의 위치 속성으로 인해 가우시안 커널을 사용하면 완벽한 분리가 가능합니다 (커널의 위치 특성으로 인해 임의로 결정적인 경계가 결정됨). 커널 대역폭이 충분히 작은 경우 의사 결정 경계는 긍정적이고 부정적인 예를 분리해야 할 때마다 점 주위에 작은 원을 그린 것처럼 보입니다.
(크레딧 : Andrew Ng의 온라인 머신 러닝 과정 ).
그렇다면 왜 수학적인 관점에서 이런 일이 발생합니까?
표준 설정을 고려하십시오. 가우스 커널 교육 데이터 여기서 값은 입니다. 분류기 함수를 배우고 싶습니다( x ( 1 ) , y ( 1 ) ) , ( x ( 2 ) , y ( 2 ) ) , … , ( x ( n ) , y ( n ) ) y ( ±1
이제 가중치 어떻게 할당 할까요? 무한한 차원 공간과 2 차 프로그래밍 알고리즘이 필요합니까? 아니요, 포인트를 완벽하게 분리 할 수 있다는 것을 보여주고 싶기 때문입니다. 따라서 가장 작은 분리보다 10 억 배 작게 만듭니다.두 훈련 예제 사이에서 설정했습니다 . 이것은 모든 훈련 포인트가 커널에 관한 한 10 억 시그마 떨어져 있으며, 각 포인트 는 근처 의 의 부호를 완전히 제어한다는 것을 의미합니다 . 공식적으로 우리는 σ | | x ( i ) − x ( j ) | | 승 난 = 1 개 , Y를
여기서 은 임의로 작은 값입니다. 우리는 알고있다 때문에 작은입니다 모든 그래서, 억 sigmas 떨어진 다른 지점으로부터 우리가ϵ x ( k ) i ≠ k
이후 너무 작아서, 명확히 같은 투표 하고, 분류가 훈련 데이터에 최적의 정확도를 달성한다.Y ( X ( K ) ) (Y) ( K )
이것이 "무한 차원 피처 공간에서 완벽한 선형 분리"로 해석 될 수 있다는 사실은 커널 트릭에서 비롯된 것으로, 잠재적으로 무한 차원 피처 공간에서 커널을 내부 제품으로 해석 할 수 있습니다.
여기서 는 데이터 공간에서 기능 공간으로의 맵핑입니다. 피처 공간에서 함수가 선형 함수로 즉시 작동합니다., Y ( X )
여기서 선형 함수 는 피처 공간 벡터 과 같이 정의 됩니다.v
이 함수는 에서 선형입니다. 왜냐하면 고정 된 벡터를 가진 내부 제품의 선형 조합 일뿐입니다. 피처 공간에서 결정 경계 은 선형 함수의 레벨 세트 인 입니다. 이것은 피쳐 공간에서 하이퍼 플레인의 정의입니다.Y ( X ) = 0 L ( V ) = 0
참고 : 이 섹션에서표기법은 훈련 데이터가 아닌임의의점세트를 나타냅니다. 이것은 순수한 수학입니다. 훈련 데이터는이 섹션에 전혀 포함되지 않습니다! n
커널 메서드는 실제로 피처 공간이나 매핑 명시 적으로 "찾기"또는 "계산"하지 않습니다 . SVM과 같은 커널 학습 방법은 작동하지 않아도됩니다. 커널 함수 만 필요합니다 .K
즉, 대한 수식을 작성할 수 있습니다 . 매핑 하는 피처 공간 은 일종의 추상 (및 잠재적으로 무한 차원)이지만 본질적으로 매핑은 커널을 사용하여 간단한 피처 엔지니어링을 수행합니다. 최종 결과 측면에서 커널을 사용하여 학습 한 모델은 선형 회귀 및 GLM 모델링에 널리 적용되는 기존 기능 공학과 다르지 않습니다. 예를 들어 회귀 수식에 공급하기 전에 양의 예측 변수를 기록하는 것과 같습니다. 수학은 대부분 커널이 SVM 알고리즘과 잘 작동하도록하는 데 도움이됩니다. SVM 알고리즘은 희소성의 장점이 있으며 큰 데이터 세트로 확장 할 수 있습니다.Φ
여전히 관심이 있다면 작동 방식은 다음과 같습니다. 본질적으로 우리는 , 공간과 내부 제품이 정의에 의해 유지되도록 구성하십시오. 이를 위해 각 벡터가 데이터가있는 공간 에서 실수 까지의 함수 인 추상 벡터 공간 정의합니다 . 벡터 에서의 커널 슬라이스 한정된 선형 조합으로 형성 기능이다 보다 콤팩트하게 작성하는 것이 편리합니다V X R은 f를 V의 F ( X ) = N Σ는 i가 = 1 α 나 K ( X ( I ) , X )
공간의 내부 제품은 일반적인 내적 제품이 아니라 커널을 기반으로 한 추상 내부 제품입니다.
이러한 방식으로 정의 된 피처 공간을 사용하여 는 매핑으로 각 포인트 를 해당 시점의 "커널 슬라이스"로 가져갑니다.
가 양의 한정된 커널 인 경우 가 내부 제품 공간 임을 증명할 수 있습니다 . 자세한 내용은이 백서를 참조하십시오. (이 점을 지적한 f 코 펜스에게!)
이 답변 은 멋진 대수적 설명을 제공하지만 직관과 증거가 모두 포함 된 기하학적 관점이 있습니다.
고정 소수점 에 대해 커널 슬라이스 함수 있습니다. 그래프 단지 가우스 중심 범프이다 . 피처 공간이 유한 한 차원이라면 고정 된 점 세트에서 유한 범프 세트를 가져 와서 다른 곳에서는 가우시안 범프를 형성 할 수 있습니다. 그러나 분명히 우리가 이것을 할 수있는 방법은 없습니다. 새로운 범프는 이전 범프에서 멀리 떨어져 있기 때문에 오래된 범프에서 새 범프를 만들 수 없습니다. 따라서, 우리가 가진 피처 벡터 (범프)의 수에 관계없이 항상 새로운 범프를 추가 할 수 있으며 피처 공간에서 이들은 새로운 독립 벡터입니다. 피처 공간은 유한 차원이 될 수 없습니다. 무한해야합니다.
우리는 유도를 사용합니다. 만약 포인트의 임의의 세트가 있다고 가정 벡터가 예를 는 피처 공간에서 선형 적으로 독립적입니다. 이제이 점 과 구별 되는 점 찾으십시오. 실제로 모든 점에서 10 억 시그마 떨어져 있습니다. 우리는 이 첫 번째 특징 벡터 선형으로 독립적 이라고 주장합니다 .
모순에 의한 증거. 반대로
이제 내부의 제품을 임의의 가져 가십시오 . 신원 에 의해
여기서 는 자유 변수 방정식은 두 함수가 동일하다는 것을 나타내는 항입니다. 특히, 을 중심으로 한 가우시안은 다른 시점에서 에서 가우스의 선형 조합으로 표현 될 수 있다고 합니다. 기하학적으로 다른 점을 중심으로 한 가우시안 범프의 유한 조합에서 한 점을 중심으로 한 가우시안 범프를 만들 수 없다는 것은 명백합니다. 특히 다른 모든 가우시안 범프가 10 억 시그마 떨어져있을 때. 따라서 선형 의존성에 대한 우리의 가정은 우리가 보여준 것처럼 모순을 초래했습니다.
가우스 커널의 커널 매트릭스는 항상 대해 전체 순위를 . 즉, 새 예를 추가 할 때마다 순위가 씩 증가합니다 . 매우 작게 설정하면 이것을 보는 가장 쉬운 방법 입니다. 그런 다음 커널 매트릭스는 거의 대각선입니다. 1σ를
순위가 항상 1 씩 증가한다는 사실 은 피처 공간의 모든 투영 가 선형 독립형 (직교 형이 아닌 독립형) 임을 의미합니다 . 따라서 각 예제는 투영 범위에 새 차원을 추가합니다 . 셀 수없이 많은 예를 추가 할 수 있으므로 피처 공간의 크기는 무한해야합니다. 흥미롭게도 이므로 입력 공간을 피처 공간으로 투영하는 모든 구는 구형에 있습니다. . 그럼에도 불구하고 구의 형상은 평평합니다. 당신은 그것에 대한 자세한 내용을 읽을 수 있습니다Φ ( X 1 ) , . . . , Φ ( x m ) | | Φ ( x ) | | ² H = k ( x , x ) = 1
CJC Burges (1999). 커널 기반 방법의 기하학과 불변성. B. Schölkopf, CJC Burges 및 AJ Smola (Eds.)에서 커널 방법의 발전은 벡터 학습을 지원합니다 (pp. 89–116). MIT Press.
배경과 표기법에 대해서는 지원 벡터에서 결정 경계를 계산하는 방법에 대한 답변을 참조하십시오 . .
따라서 '원래'공간의 특징은 벡터 , 이진 결과 이며 라그랑주 승수는 입니다.
커널은 ( ' '는 내부 제품을 나타냄 로 쓸 수있는 것으로 알려져 있습니다. 여기서 는 (암시적이고 알려지지 않음) 새로운 기능 공간으로 변환.
이 가 어떻게 보이는지에 대한 '직관적 인'설명 을 하려고 노력할 것입니다. 답변은 공식적인 증거가 아니며, 이것이 어떻게 작동하는지에 대한 느낌 을 주고 싶습니다 . 내가 틀렸다면 주저하지 말고 바로 잡으십시오. 내 설명의 기초는 이 pdf의 섹션 2.2.1입니다.
내 특징 공간 (그래서 내 )을 선형 분리가 해결되는 '새로운'특징 공간 으로 '변환'해야합니다 .
각 관측 값 대해 함수를 정의 하므로 학습 샘플의 각 요소에 대해 함수가 있습니다 . 이러한 함수 는 벡터 공간에 걸쳐 있습니다. 벡터 공간은 스팬으로 는, 참고 . ( 은 훈련 샘플의 크기입니다).
이 벡터 공간 는 선형 분리가 가능한 벡터 공간이라고 주장하려고 합니다. 범위를 정의하여 벡터 공간 의 각 벡터를 의 선형 조합으로 작성할 수 있습니다 . 즉 . 여기서 는 실수입니다. 따라서 실제로
참고는 벡터의 좌표 벡터 공간에서 .
은 학습 샘플의 크기이므로 가 선형 독립 인지 여부에 따라 벡터 공간 의 크기는 까지 올라갈 수 있습니다 . 으로 (상기 문헌 참조, 우리는 정의 것을이 수단이 방식) 의 치수 사용 된 커널에 따라 달라집니다 및 훈련 샘플의 크기까지 갈 수 있습니다.
커널은 '복잡한 정도'는 경우 모든 독립적 인 것 다음의 치수 될 것입니다 , 훈련 샘플의 크기입니다.
원래 피처 공간을 매핑하는 변환 은 다음과 같이 정의됩니다.
.
이 맵 는 원래 피쳐 공간을 훈련 샘플 크기에 해당하는 차원을 가질 수있는 벡터 공간에 매핑합니다. 따라서 는 훈련 샘플의 각 관측 값을 벡터가 함수 인 벡터 공간에 매핑합니다. 내 훈련 샘플 의 벡터 는 의 벡터, 즉 번째 좌표가 1을 제외하고 좌표가 모두 0 인 벡터 '매핑'됩니다 .
분명히,이 변환은 (a) 커널에 의존하고 (b) 훈련 샘플의 값에 의존 하며 (c) 커널에 따라 훈련 샘플의 크기에 해당하는 차원을 가질 수 있으며 ( d)의 벡터 모습 여기서 실수이다.
지지 벡터로부터 결정 경계를 계산하는 방법 의 함수 를 보 시겠습니까? 임을 알 수 있습니다 . SVM에서 발견 한 결정 경계는 입니다.
즉, 는 의 선형 조합 이고 은 공간 에서 선형 분리 초평면 입니다. 의 특별한 선택입니다. 즉 !
우리의 관측 알려져있다는 SVM을 발견했다고 라그랑주 승수입니다. 다시 말해, SVM은 커널을 사용하고 2 차 프로그래밍 문제를 해결함으로써 -spave 에서 선형 분리를 찾습니다.
이것은 '커널 트릭'을 통해 원래의 특징 공간을 다른 차원 의 새로운 특징 공간 로 '암시 적으로'변환하는 방법을 직관적으로 이해 합니다. 이 차원은 사용하는 커널에 따라 다르며 RBF 커널의 경우이 차원은 학습 샘플의 크기까지 올라갈 수 있습니다. 훈련 샘플은 어떤 크기라도 가질 수 있으므로 이것은 '무한'까지 올라갈 수 있습니다. 명백히, 매우 높은 공간에서는 과적 합의 위험 이 증가합니다.
따라서 커널은 SVM이 기능 공간을 변환 할 수있는 기술입니다 . 가우시안 커널이 PCA에 그렇게 마법적인 이유 는 무엇입니까?
불행히도, fcop의 설명은 매우 틀립니다. 우선 "커널을 다음과 같이 쓸 수있는 것으로 알려져있다. 여기서 ...는 새로운 기능 공간으로 (암시적이고 알려지지 않은) 변환이다." 알 수 없습니다. 이것은 실제로 지형지 물이 매핑되는 공간이며 RBF의 경우와 같이 무한 치수가 될 수있는 공간입니다. 모든 커널은 훈련 예제의 변형 된 특징 벡터를 가진 변형 된 특징 벡터의 내부 곱을 취하여 결과에 일부 기능을 적용합니다. 따라서이 높은 차원의 특징 벡터를 암시 적으로 나타냅니다. 예를 들어 x ^ 2 + 2xy + y ^ 2 대신 (x + y) ^ 2를 쓰십시오. 이제 무한 함수가 지수 함수로 암시 적으로 표현하는 것을 생각하십시오 ... 무한 기능 공간이 있습니다.
SVM에 대해 생각하는 올바른 방법은 기능을 무한 크기 차원 공간에 매핑하는 것입니다.이 차원 공간은 훈련 세트 크기만큼 클 수있는 또 다른 유한 차원 "Kernel"기능 공간에서 암시 적으로 표현할 수 있습니다.