선형 커널이있는 커널 PCA는 표준 PCA와 동등합니까?

의 경우 커널 PCA 내가 선형 커널 선택 $K(\mathbf{x},\mathbf{y}) = \mathbf x^\top \mathbf y$ , 결과는 다를 것입니다 일반 선형 PCA ? 솔루션이 근본적으로 다르거 나 잘 정의 된 관계가 있습니까?

pca kernel-trick

— tgoossens
소스

답변:

요약 : 선형 커널이있는 커널 PCA는 표준 PCA와 정확히 동일합니다.

하자 의 중심 데이터 행렬 규모 열 및 변수 행 데이터 포인트. 그런 다음 공분산 행렬은 로 주어지며 고유 벡터는 주축이고 고유 값은 PC 분산입니다. 동시에, 크기 의 소위 그람 행렬 을 고려할 수 있습니다 . 까지 동일한 고유 값 (예 : PC 분산)을 가짐을 쉽게 알 수 있습니다. $\mathbf{X}$ $N \times D$ $D$ $N$ $D \times D$ $\mathbf{X}^\top\mathbf{X}/(n-1)$ $\mathbf{X}\mathbf{X}^\top$ $N \times N$ $n-1$ factor와 그 고유 벡터는 단위 규범에 맞게 조정 된 주요 구성 요소입니다.

이것은 표준 PCA였습니다. 이제 커널 PCA에서 각 데이터 포인트를 일반적으로 더 큰 차원을 갖는 다른 벡터 공간에 매핑하는 일부 함수 를 고려 합니다. $\phi(x)$ , 심지어는 무한한. 커널 PCA의 아이디어는이 새로운 공간에서 표준 PCA를 수행하는 것입니다. $D_\mathrm{new}$

이 새로운 공간의 차원은 매우 크거나 무한하기 때문에 공분산 행렬을 계산하는 것은 어렵거나 불가능합니다. 그러나 위에서 설명한 PCA에 두 번째 방법을 적용 할 수 있습니다. 실제로 그램 매트릭스는 여전히 동일한 관리 가능한 크기입니다. 이 행렬의 요소는 로 주어지며 , 커널 함수 $N \times N$ $\phi(\mathbf{x}_i)\phi(\mathbf{x}_j)$ $K(\mathbf{x}_i,\mathbf{x}_j)=\phi(\mathbf{x}_i)\phi(\mathbf{x}_j)$ . 이것이 커널 트릭으로 알려진 것 입니다: 실제로 를 계산할 필요가 없습니다. $\phi()$ 없지만 만 있습니다. 이 그램 행렬의 고유 벡터는 우리가 관심있는 대상 공간의 주요 구성 요소가됩니다. $K()$

귀하의 질문에 대한 답변이 이제 분명해집니다. 만약 다음 커널 그람 행렬로 감소 $K(x,y)=\mathbf{x}^\top \mathbf{y}$ 표준 그람 매트릭스와 동일하다, 따라서 주성분은 변화하지 않을 것이다. $\mathbf{X} \mathbf{X}^\top$

매우 읽기 쉬운 참조는 Scholkopf B, Smola A 및 Müller KR, Kernel 주요 구성 요소 분석 (1999 )이며, 예를 들어 그림 1에서는 표준 제품을 커널 기능으로 도트 제품을 사용하는 것으로 명시 적으로 언급합니다.

커널 PCA

— 아메바의 말에 따르면 복원 모니카
소스

당신의 대답에 나온 사진입니까? 어떤 책에서?

— 피노키오

@Pinocchio, 그림은 Scholkopf et al. 내 대답에 참조되고 연결된 종이.

— amoeba는

" n-1 인자까지 동일한 고유 값 (즉, PC 분산)을 가짐을 쉽게 알 수 있습니다. "-이것이 완전히 동일하지 않다는 것을 의미하지 않습니까? n = 10 샘플, d = 200 크기의 행렬이 있다고 가정 해 봅시다. 표준 PCA에서는 원한다면 데이터를 199 차원으로 투사 할 수 있었지만 선형 커널이있는 커널 PCA에서는 최대 10 차원까지만 가능합니다.

— Cesar

@Cesar, 아니요, n = 10 개의 표본이 있으면 공분산 행렬의 순위는 10-1 = 9이며 표준 PCA는 9 차원 (커널 PCA) 만 찾습니다. stats.stackexchange.com/questions/123318을 참조하십시오 .

— amoeba는 Reinstate Monica

Scholkopf B, Smola A 및 Müller KR의 참조 링크에 대한 파일을 찾을 수 없습니다.

— pbible 2016

아메바의 좋은 대답 외에도 동등성을 보는 더 간단한 방법이 있습니다. 다시 는 열에 변수가 있고 행에 데이터 점이있는 크기 의 데이터 행렬입니다 . 표준 PCA 행렬의 특이 값 분해 촬영에 대응하는 으로 의 주 성분 . 선형 커널 의 특이 값 분해는 왼쪽 특이 벡터가 동일하므로 주성분이 동일합니다. $X$ $N \times D$ $D$ $N$ $X = U \Sigma V^\top$ $U$ $X$ $XX^\top = U \Sigma^2 U^\top$

— 마사 화이트
소스

표준 PCA의 경우 공분산 행렬의 SVD에 관심이 있다고 생각했기 때문에 X의 SVD가 어떻게 관련되어 있는지 실제로 이해하지 못합니까? 확장 할 수 있습니까?

— m0s

@ m0s PCA의 경우 일반적으로 (중심) 데이터 행렬의 SVD에 의해 수행되는 공분산 행렬의 고유 분해에주의합니다.

— MrDrFenner

선형 커널이있는 KPCA는 간단한 PCA와 같아야합니다.

고유 값을 가져올 공분산 행렬은 동일합니다.

l i n e a r K P C A_{m a t r i x} = \frac{1}{l} \sum_{j = 1}^{l} K (x_{j}, x_{j}) = \frac{1}{l} \sum_{j = 1}^{l} x_{j} x_{j}^{T} = P C A_{m a t r i x}

$linearKPCA_{matrix} = \frac{1}{l} \sum_{j=1}^{l}K(x_{j},x_{j}) = \frac{1}{l} \sum_{j=1}^{l}x_{j}x_{j}^T = PCA_{matrix}$

자세한 내용은 여기를 참조 하십시오 .

— 준 디아 우스
소스

정답은 정답이지만 공식은 혼란스러워 보입니다. KPCA는 그램 매트릭스와 함께 작동

K (x_{i}, x_{j})

$K(x_i, x_j)$ 공분산 행렬이 아닌 (비선형 커널의 경우 대상 공간이 무한 치수이므로 공분산 행렬을 계산하는 것은 실제로 불가능합니다). 인용 한 논문의 2 페이지를 참조하십시오.

— amoeba는 Reinstate Monica