가우시안 및 다항식 커널로 커널 PCA ( 1 , 2 , 3 ) 에 대해 읽었습니다 .
가우시안 커널은 겉보기에 비선형 데이터를 어떻게 잘 분리합니까? 가능한 경우 수학적으로 관련된 분석뿐만 아니라 직관적 인 분석을 제공하십시오.
다른 커널에는없는 가우스 커널 (이상적인 ) 의 속성은 무엇입니까 ? 신경망, SVM 및 RBF 네트워크가 떠 오릅니다.
- Cauchy PDF와 같은 표준을 적용하여 동일한 결과를 기대하지 않는 이유는 무엇입니까?
가우시안 및 다항식 커널로 커널 PCA ( 1 , 2 , 3 ) 에 대해 읽었습니다 .
가우시안 커널은 겉보기에 비선형 데이터를 어떻게 잘 분리합니까? 가능한 경우 수학적으로 관련된 분석뿐만 아니라 직관적 인 분석을 제공하십시오.
다른 커널에는없는 가우스 커널 (이상적인 ) 의 속성은 무엇입니까 ? 신경망, SVM 및 RBF 네트워크가 떠 오릅니다.
답변:
마법의 비결은 매끄러움이라고 생각합니다. 다음에 오는 긴 대답은 단순히이 부드러움을 설명하는 것입니다. 예상 한 답변 일 수도 있고 아닐 수도 있습니다.
짧은 답변:
양의 정한 커널 주어지면, 함수 H 의 해당 공간이 존재합니다 . 기능의 속성은 커널에 의해 결정됩니다. 이 경우 밝혀 k는 가우시안 커널에서 함수 H가 매우 매끄럽다. 따라서 학습 된 기능 (예 : 회귀 함수, 커널 PCA에서와 같이 RKHS의 주요 구성 요소)은 매우 매끄 럽습니다. 일반적으로 우리가 다루고 싶은 대부분의 데이터 세트에는 평활도 가정이 합리적입니다. 이것은 가우시안 커널이 마법 같은 이유를 설명합니다.
가우스 커널이 부드러운 기능을 제공하는 이유에 대한 긴 대답 :
포지티브 명확한 커널 (암시 적) 내적 정의 K ( X , Y를 ) = ⟨ φ ( X ) , φ ( Y ) ⟩ H 특징 벡터에 대한 φ ( X ) 하여, 입력으로 구성 X 및 H 는 힐버트 공간입니다. 표기 ⟨ φ ( X ) , φ ( Y ) ⟩ 와 ϕ ( y ) 사이의 내부 곱을 의미합니다 . 우리의 목적을 위해, H 가 일반적인 유클리드 공간이지만 상상할 수없는 크기의 공간이라고 상상할 수 있습니다 . ϕ ( x ) = ( ϕ 1 ( x ) , ϕ 2 ( x ) , … ) 처럼 무한정 긴 벡터를 상상해보십시오 . 커널 메소드에서 HRKHS (kernel Hilbert space)라는 기능 공간입니다. 이 공간은 즉``재현 특성 ''라는 특별한 프로퍼티가 . 이 평가하는 것을 말한다 F ( X를 ) (무한 길이의 언급 한 바와 같이)에 먼저 특징 벡터를 구성, F . 그런 다음에 대한 귀하의 특징 벡터를 구성 X 로 표시 φ ( X ) (무한히 긴). f ( x ) 의 평가두 가지의 내부 제품을 가져 와서 제공됩니다. 실제로 실제로 아무도 무한히 긴 벡터를 구성하지는 않습니다. 내부 제품에만 관심이 있기 때문에 커널 직접 평가합니다 . 명시 적 기능의 계산을 무시하고 내부 제품을 직접 계산하는 것을 "커널 트릭"이라고합니다.
기능은 무엇입니까?
나는 기능은 말을 계속 그들이 무엇 지정하지 않고. 커널 k가 주어지면 기능은 고유하지 않습니다. 그러나 ⟨ φ는 ( X ) , φ ( y를 ) ⟩ 유일하게 결정된다. 함수의 부드러움을 설명하기 위해 푸리에 기능을 고려해 봅시다. 변환 불변 커널 k , k ( x , y ) = k ( x − y 즉, 커널은 단지 두 개의 인수의 차이에 따라 달라집니다. 가우스 커널에는이 속성이 있습니다. 하자 케이 푸리에의 변환을 나타내는 K .
이 푸리에 변환의 관점에서의 기능 주어진다 F : = ( ⋯ , F의 L / √. 이것은 함수f의 특징 표현이 푸리에 변환을 커널k의 푸리에 변환으로 나눈 것입니다. 의 피쳐 표시X이고,φ(X는) 이다(⋯,√ 여기서,I=√ . 재생산 재산이 보유하고 있음을 보여줄 수 있습니다 (독자 운동).
그렇다면이 규범은 언제 유한 한가 ? 즉, 는 공간에 속하는가? 경우도 보다 빠른 방울 합이 수렴되도록한다. 이제 가우스 커널 의 푸리에 변환F 2 패 케이 패 K ( X , Y ) = EXP ( - ‖ X - Y의 ‖ 2
또 가우시안 지수 적 감소를 빠르고 . 따라서 가이 공간에 있어야 한다면 푸리에 변환은 보다 더 빨리 합니다. 즉,이 기능은 가중치가 높은 저주파 구성 요소 만 효과적으로 갖습니다. 저주파 성분 만있는 신호는 많이 흔들리지 않습니다. 이것은 가우스 커널이 당신에게 부드러운 기능을 제공하는 이유를 설명합니다.L 개의F에K
추가 : Laplace 커널은 어떻습니까?
Laplace 커널 를 고려 하면 푸리에 변환 은 지수보다 훨씬 느리게 떨어지는 Cauchy 분포입니다. 가우스 커널의 푸리에 변환에서 함수. 이것은 함수 가 더 높은 주파수 성분을 을 의미합니다 . 결과적으로 Laplace 커널이 제공하는 기능은 Gaussian 커널이 제공하는 기능보다``거칠다 ''.
다른 커널에는없는 가우시안 커널의 속성은 무엇입니까?
가우스 폭에 관계없이 한 가지 속성은 가우시안 커널이``범용 ''이라는 것입니다. 직관적으로, 이는 연속 된 연속 함수 (임의)가 주어진 경우 와 가 가깝 도록 함수가 존재 함을 의미합니다 ( 필요한 임의의 정밀도까지. 기본적으로 이것은 가우시안 커널이 "좋은"(경계, 연속) 기능을 임의로 잘 수행 할 수있는 기능을 제공한다는 것을 의미합니다. 가우스 및 라플라스 커널은 보편적입니다. 예를 들어 다항식 커널은 그렇지 않습니다.
Cauchy PDF와 같은 표준을 적용하여 동일한 결과를 기대하지 않는 이유는 무엇입니까?
일반적으로 결과 가 양의 정한 한 원하는대로 할 수 있습니다 . 양의 확정은 모든 , 의 모든 (자연수의 집합) . 가 양의 한정이 아닌 경우 , 내부 제품 공간에 해당하지 않습니다. 언급 한대로 함수 공간이 없기 때문에 모든 분석이 중단 됩니다. 그럼에도 불구하고 경험적으로 작동 할 수 있습니다. 예를 들어 쌍곡 탄젠트 커널 ( 이 페이지의 숫자 7 참조 )
신경망에서 시그 모이 드 활성화 유닛을 모방하기 위해 의도 된 것은 및 의 일부 설정에 대해서는 양의 한정입니다 . 아직도 그것이 실제로 작동한다고보고되었습니다.
다른 종류의 기능은 어떻습니까?
나는 기능이 독특하지 않다고 말했다. 가우시안 커널의 경우 Mercer 확장에 의해 또 다른 기능 세트가 제공됩니다 . 유명한 Gaussian 프로세스 북 의 4.3.1 섹션을 참조하십시오 . 이 경우, 은 에서 평가 된 Hermite 다항식 입니다.
나는이 질문에 답하기 위해 최선을 다할 것입니다. 나는 그 주제에 대한 전문가이기 때문에 (반대가 그렇습니다), 나는 좋은 교육 경험이 될 수 있다는 생각과 함께 분야와 주제에 대해 궁금하기 때문에 . 어쨌든, 여기 주제에 대한 간단한 아마추어 연구 결과가 있습니다.
TL; DR은 : 나는 연구 논문에서 다음과 같은 구절 고려할 것 "정규화 운영 및 지원 벡터 커널 사이의 연결" 는 AS 짧은 대답 이 질문을 :
가우스 커널은 일반적인 평활도 가정에서 우수한 성능을 제공하는 경향이 있으며, 데이터에 대한 추가 지식이없는 경우 특히 고려해야합니다.
자, 자세한 답변 (내 이해를 돕기 위해; 수학 세부 사항은 참조를 사용하십시오).
아시다시피 PCA (Principal Component Analysis) 는 차원 축소 와 그 이후의 데이터 분류를위한 매우 보편적 인 접근 방식 입니다 : http://www.visiondummy.com/2014/05/feature-extraction-using-pca . 그러나 데이터가 비선형 종속성 (즉, 선형으로 분리 할 수 없음 )을 전달하는 상황에서는 기존 PCA가 적용되지 않습니다 (성능이 좋지 않음). 이러한 경우 다른 접근 방식을 사용할 수 있으며 비선형 PCA 도 그 중 하나입니다.
PCA가 커널 기능을 기반으로하는 접근 방식은 일반적으로 "커널 PCA"( kPCA ) 라는 용어를 사용하여 참조됩니다 . 사용 가우시안 방사형 기저 함수 (RBF) 커널은 아마도 가장 인기있는 변화이다. 이 접근 방식은 여러 소스에서 자세히 설명하지만 이 블로그 게시물 에서 Sebastian Raschka의 훌륭한 설명과 매우 흡사 합니다. 그러나 가우시안 RBF 이외의 커널 기능을 사용할 가능성을 언급하면서 포스트는 인기 때문에 후자에 중점을 둡니다. 커널 근사 와 커널 트릭을 소개하는 이 멋진 블로그 게시물 은 PCA에 대한 가우시안 커널 인기에 대한 또 다른 이유를 언급합니다 : 무한 차원.
Quora의 여러 답변에서 추가 통찰력을 찾을 수 있습니다. 특히, 이 훌륭한 토론을 읽으면 다음과 같이 가우시안 커널의 인기있는 잠재적 이유에 대한 몇 가지 사항 이 드러납니다.
가우시안 커널은 보편적 인 커널입니다. 즉, 적절한 정규화와 함께 사용하면 분류기의 추정 및 근사 오차를 최소화하는 세계적으로 최적의 예측자가 보장됩니다.
Gaussian RBF 커널은 매우 인기가 있으며 데이터와 도메인에 대한 전문 지식이없는 경우 특히 기본 커널로 사용됩니다. 다항식 및 선형 커널도 포함하기 때문입니다. 선형 커널과 다항식 커널은 가우시안 RBF 커널의 특별한 경우입니다. 가우스 RBF 커널은 비모수 적 모델로, 분석 함수의 수가 무한하기 때문에 모델의 복잡성이 잠재적으로 무한하다는 것을 의미합니다.
가우스 커널은 대역 통과 필터 일뿐입니다. 가장 부드러운 솔루션을 선택합니다. [...] 가우시안 커널은 고차 미분의 무한 합이 가장 빨리 수렴 할 때 가장 잘 작동하며, 가장 부드러운 솔루션에서 발생합니다.
마지막 으로이 멋진 답변의 추가 사항 :
노트:
특히 데이터에 대한 사전 지식이없는 경우 가우시안 커널이 최적의 선택 이라는 상기 언급 된 요점은 이 CV 답변 의 다음 문장에서 지원됩니다 .
전문가의 지식이 없으면 Radial Basis Function 커널은 기본 커널을 양호하게 만듭니다 (한 번 설정하면 비선형 모델이 필요한 문제임).
Gaussian RBF 커널과 표준 Gaussian 커널의 비 필수 차이점에 대해 궁금한 점이 있다면 https://stats.stackexchange.com/a/79193/31372 와 같은 대답이 도움이 될 수 있습니다 .
즐거움이나 비즈니스를위한 kPCA 구현에 관심이있는 사람들에게는 이 블로그 글 이 도움이 될 것입니다. 통계 분석, 머신 러닝, 신호 처리 등을위한 매우 흥미로운 .NET 오픈 소스 프레임 워크 인 Accord.NET 의 작성자 (작성자)가 작성했습니다 .
2 센트를 넣겠습니다.
가우시안 커널에 대해 생각하는 방식은 어떤 의미에서 가장 가까운 이웃 분류기와 같습니다. 가우시안 커널은 데이터 셋에서 다른 모든 포인트까지의 거리를 가진 각 포인트를 나타냅니다. 이제 선형 또는 다항식 경계를 가진 분류자를 생각하면 경계는 특정 모양으로 제한됩니다. 그러나 가장 가까운 이웃을 볼 때 경계는 실제로 모든 모양을 취할 수 있습니다. 그것이 가우시안 커널을 비모수 적, 즉 데이터에 따라 경계를 조정하는 것으로 생각하는 이유입니다. 그것을 생각하는 또 다른 방법은 가우시안 커널이 가장 가까운 이웃이 로컬 지역의 다른 지점까지의 거리를 보면서 로컬로 경계를 조정하는 것과 비슷한 지역의 로컬 모양으로 조정하는 것입니다.
나는 이것에 대한 수학적 주장이 없지만, 가우시안 커널이 실제로 무한 차원 공간에 매핑된다는 사실은 그 성공과 관련이 있다고 생각합니다. 선형 및 다항식 커널의 경우 내적은 유한 차원 공간에서 가져옵니다. 따라서 더 넓은 공간에서 작업을 수행하는 것이 더 강력 해 보입니다. 누군가가 이런 것들을 더 잘 이해하기를 바랍니다. 그것은 또한 무한한 차원 공간을 가진 다른 커널을 찾을 수 있다면 매우 강력해야 함을 의미합니다. 불행히도, 나는 그런 커널에 익숙하지 않습니다.
마지막으로, 다른 점으로의 거리를 측정하는 Cauchy pdf 또는 다른 pdf가 동일하게 작동해야한다고 생각합니다. 다시 말하지만, 나는 그것에 대한 좋은 수학적 주장은 없지만 가장 가까운 이웃과의 연결은 이것을 그럴듯하게 만듭니다.
편집하다:
다음은 가우시안 커널을 가장 가까운 이웃 분류기로 사용하는 분류기를 생각하는 방법에 대한 아이디어입니다. 먼저 가장 가까운 이웃 분류 기가 무엇을하는지 생각해 봅시다. 기본적으로 가장 가까운 인접 분류기는 점 사이의 거리를 입력으로 사용하는 표준 분류기입니다. 보다 공식적으로, 다른 모든 점까지의 거리를 계산하여 데이터 집합의 각 점 에 대해 피처 표현 을 생성한다고 상상해보십시오 . 위의 는 거리 함수입니다. 그런 다음 가장 가까운 이웃 분류 기가하는 것은이 기능 표현과 데이터의 클래스 레이블을 기반으로 포인트의 클래스 레이블을 예측하는 것입니다. 여기서
내가 생각하는 방식은 커널이 비슷한 일을한다는 것입니다. 데이터 세트의 다른 포인트와 함께 커널 값을 사용하여 각 포인트의 기능 표현을 작성합니다. 가장 가까운 이웃 사례와 유사하게,보다 공식적으로 이것은 이제 가장 가까운 이웃과의 연결은 매우 분명합니다. 커널 함수가 가장 가까운 이웃 분류기에서 사용하는 거리 측정과 관련된 측정 인 경우, 커널 기반 분류기는 가장 가까운 이웃 모델과 유사합니다.
참고 : 커널을 사용하여 훈련하는 분류기는 이러한 표현 과 직접 작동하지 않지만 이것이 암시 적으로 수행하는 것이라고 생각합니다.
그 이유는 가우시안 커널 의 VC 차원이 무한하기 때문에 매개 변수 (시그마)에 대한 올바른 값이 주어지면 임의로 많은 수의 샘플을 올바르게 분류 할 수 있기 때문입니다.
RBF는 행렬 가 전체 순위를 갖기 때문에 잘 작동합니다 . 아이디어는 이고 의 값을 줄임으로써 대각선을 벗어난 항을 임의로 작게 만들 수 있다는 것 입니다. 커널은 기능 공간의 내적에 해당합니다. 이 피처 공간에서 치수는 지수의 시리즈 확장을 고려하여 무한합니다. 따라서이 점들을 다른 차원으로 투영하여 분리 할 수 있습니다.K ( X I , X I ) > 0 σ
대조적으로, 선형 커널의 경우 평면에서 네 점만 산산조각 낼 수 있습니다 .
이 문서 는 매우 기술적 인 내용이지만 살펴볼 수 있습니다 . SVM에 대한 표준 서적 중 하나가이 개념의 접근성을 높여야합니다.