차원 수가 경우 데이터에 대해 주요 구성 요소 만있는 이유는 무엇 입니까?

PCA에서,시 치수의 개수 샘플 수 (또는 동일)보다 큰 , 이유는 기껏해야한다는 것이다 비제로 고유 벡터? 다시 말해, 차원 들 사이의 공분산 행렬의 순위 는 이다. $d$ $N$ $N-1$ $d\ge N$ $N-1$

예 : 샘플은 크기의 벡터화 된 이미지 이지만 이미지 만 있습니다 . $d = 640\times480 = 307\,200$ $N=10$

pca dimensionality-reduction eigenvalues

— GrokingPCA
소스

2D 또는 3D에서 포인트를 상상해보십시오 . 이 점들이 차지하는 매니 폴드의 치수는 얼마입니까? 답은 . 두 점은 항상 선 위에 있습니다 (선은 1 차원입니다). 공간의 정확한 치수는 중요하지 않으며 ( 보다 큰 경우 ) 점은 1 차원 부분 공간 만 차지합니다. 따라서 분산은이 부분 공간, 즉 1 차원을 따라 "확산"됩니다. 이것은 모든 됩니다.

N = 2

$N=2$

N - 1 = 1

$N-1=1$

N

$N$

N

$N$

— amoeba는

@amoeba의 의견에 정밀도를 추가하려고합니다. 원점도 중요합니다. 따라서 N = 2 + 원점이있는 경우 차원 수는 최대 2 (1 아님)입니다. 그러나, PCA에서 우리는 일반적으로 우리가 원점을 넣어 수단 데이터, 중앙 내부에 다음 하나의 차원이 소비됩니다 및 대답은 "N-1"입니다, 같은 아메바로 표시 - 데이터 클라우드의 공간.

— ttnphns 2014

이것이 나를 혼란스럽게 만드는 것입니다. 치수를 파괴하는 것은 그 자체가 센터링이 아닙니다. 정확히 N 개의 표본과 N 개의 차원이 있다면, 중심을 맞춘 후에도 여전히 N 개의 고유 벡터가 있습니까?

— GrokingPCA

왜? 한 차원을 파괴하는 것은 중심입니다. 중심 (산술 평균으로)은 원점을 "외부"에서 데이터에 의해 "스팬 된"공간으로 "이동"합니다. N = 2의 예와 함께. 2 점 + 일부 원점은 일반적으로 평면에 걸쳐 있습니다. 이 데이터를 중심에두면 원점을 두 점 사이의 직선에 놓습니다. 따라서 데이터는 이제 한 줄에 걸쳐 있습니다.

— ttnphns 2011

유클리드는 이미 2300 년 전에 알고있었습니다. 두 점이 선을 결정하고 세 점이 평면을 결정합니다. 일반화, 지점은 차원 유클리드 공간을 결정합니다 .

N

$N$

N - 1

$N-1$

— whuber

PCA의 기능을 고려하십시오. 간단히 말해서 PCA (가장 일반적으로 실행 됨)는 다음을 통해 새로운 좌표계를 만듭니다.

원점을 데이터의 중심으로 이동
축을 꽉 쥐거나 늘려서 길이를 동일하게 만듭니다.
축을 새로운 방향으로 회전시킵니다.

(자세한 내용은이 우수한 CV 스레드 : 주요 구성 요소 분석, 고유 벡터 및 고유 값 이해를 참조하십시오 .) 그러나 축을 이전 방식으로 회전시키는 것은 아닙니다. 새로운 (첫 번째 주요 구성 요소)은 데이터의 최대 변동 방향을 지향합니다. 제 2 주성분 은 제 1 주성분과 직교 하는 다음으로 큰 변동량의 방향으로 배향된다 . 나머지 주성분은 마찬가지로 형성된다. $X_1$

이를 염두에두고 @amoeba의 예제를 살펴 보자 . 다음은 3 차원 공간에 두 개의 점이있는 데이터 행렬입니다. 이 점들을 ( 의사) 입체 산점도 :

엑스 = [\begin{array}{ccc} 1 & 1 & 1 \\ 2 & 2 & 2 \end{array}]

$X = \bigg[ \begin{array}{ccc} 1 &1 &1 \\ 2 &2 &2 \end{array} \bigg]$

여기에 이미지 설명을 입력하십시오

위에 나열된 단계를 따르십시오. (1) 새 좌표계의 원점은 있습니다. (2) 축이 이미 동일합니다. (3) 첫 번째 주성분은 에서 까지 대각선으로갑니다 .이 데이터의 가장 큰 변화의 방향입니다. 이제 두 번째 주성분은 첫 번째 주성분과 직교해야하며 가장 큰 나머지 변형 방향으로 가야합니다 . 그러나 그것은 어떤 방향입니까? 그것은에서가 에 , 또는에서 에 , 또는 뭔가 다른? 나머지 변형이 없으므로 더 이상 주요 구성 요소가있을 수 없습니다 $(1.5, 1.5, 1.5)$ $(0,0,0)$ $(3,3,3)$ $(0,0,3)$ $(3,3,0)$ $(0,3,0)$ $(3,0,3)$ .

데이터를 사용하면 (최대) 주성분에 적합 할 수 있습니다 . $N=2$ $N-1 = 1$

— gung-복직 모니카
소스