PCA에서,시 치수의 개수 샘플 수 (또는 동일)보다 큰 , 이유는 기껏해야한다는 것이다 비제로 고유 벡터? 다시 말해, 차원 들 사이의 공분산 행렬의 순위 는 이다.N N - 1 d ≥ N N - 1
예 : 샘플은 크기의 벡터화 된 이미지 이지만 이미지 만 있습니다 .N = 10
PCA에서,시 치수의 개수 샘플 수 (또는 동일)보다 큰 , 이유는 기껏해야한다는 것이다 비제로 고유 벡터? 다시 말해, 차원 들 사이의 공분산 행렬의 순위 는 이다.N N - 1 d ≥ N N - 1
예 : 샘플은 크기의 벡터화 된 이미지 이지만 이미지 만 있습니다 .N = 10
답변:
PCA의 기능을 고려하십시오. 간단히 말해서 PCA (가장 일반적으로 실행 됨)는 다음을 통해 새로운 좌표계를 만듭니다.
(자세한 내용은이 우수한 CV 스레드 : 주요 구성 요소 분석, 고유 벡터 및 고유 값 이해를 참조하십시오 .) 그러나 축을 이전 방식으로 회전시키는 것은 아닙니다. 새로운 (첫 번째 주요 구성 요소)은 데이터의 최대 변동 방향을 지향합니다. 제 2 주성분 은 제 1 주성분과 직교 하는 다음으로 큰 변동량의 방향으로 배향된다 . 나머지 주성분은 마찬가지로 형성된다.
이를 염두에두고 @amoeba의 예제를 살펴 보자 . 다음은 3 차원 공간에 두 개의 점이있는 데이터 행렬입니다.
이 점들을 ( 의사) 입체 산점도 :
위에 나열된 단계를 따르십시오. (1) 새 좌표계의 원점은 있습니다. (2) 축이 이미 동일합니다. (3) 첫 번째 주성분은 에서 까지 대각선으로갑니다 .이 데이터의 가장 큰 변화의 방향입니다. 이제 두 번째 주성분은 첫 번째 주성분과 직교해야하며 가장 큰 나머지 변형 방향으로 가야합니다 . 그러나 그것은 어떤 방향입니까? 그것은에서가 에 , 또는에서 에 , 또는 뭔가 다른? 나머지 변형이 없으므로 더 이상 주요 구성 요소가있을 수 없습니다( 0 , 0 , 0 ) ( 3 , 3 , 3 ) ( 0 , 0 , 3 ) ( 3 , 3 , 0 ) ( 0 , 3 , 0 ) ( 3 , 0 , 3 ).
데이터를 사용하면 (최대) 주성분에 적합 할 수 있습니다 . N - 1 = 1