PCA의 경우, "분산"은 합산 분산 또는 다변량 변동 또는 전체 변동 또는 총 변동을 의미 합니다. 다음은 3 가지 변수의 공분산 행렬입니다. 이들의 분산은 대각선에 있으며 3 개의 값 (3.448)의 합이 전체 변동입니다.
1.343730519 -.160152268 .186470243
-.160152268 .619205620 -.126684273
.186470243 -.126684273 1.485549631
이제 PCA는 원래 변수를 기본 구성 요소라고하는 새로운 변수로 대체합니다.이 변수는 직교 (공변량이 0 임)이고 감소하는 순서로 고유 값이라고합니다. 따라서 위 데이터에서 추출한 주성분 간의 공분산 행렬은 다음과 같습니다.
1.651354285 .000000000 .000000000
.000000000 1.220288343 .000000000
.000000000 .000000000 .576843142
대각선 합은 여전히 3.448이며, 이는 3 개의 성분 모두가 모든 다변량 변동성을 설명한다는 것을 나타냅니다. 제 1 주성분은 전체 변동성의 1.651 / 3.448 = 47.9 %를 설명하거나 "설명"합니다. 두 번째 것은 1.220 / 3.448 = 35.4 %입니다. 세 번째는 .577 / 3.448 = 16.7 %를 설명합니다.
" PCA는 분산을 최대화합니다 "또는 " PCA는 최대 분산을 설명합니다 " 라고 말할 때 무엇을 의미 합니까? 물론 세 가지 값 중에서 가장 큰 차이를 찾는 것은 1.343730519 .619205620 1.485549631
아닙니다. PCA는 데이터 공간 에서 전체 분산 중에서 분산이 가장 큰 차원 (방향)을 찾습니다 . 가장 큰 차이는 다음과 같습니다 . 그런 다음 나머지 전체 분산 에서 두 번째로 큰 분산의 치수 (첫 번째 것과 직교하는 치수)를 찾습니다 . 이 2 차원은 분산입니다. 등등. 마지막으로 남은 차원은 분산입니다. 여기에 "Pt3"도 있고 여기 에 큰 대답이 있습니다1.343730519+.619205620+1.485549631 = 3.448
1.651354285
3.448-1.651354285
1.220288343
.576843142
어떻게 더 자세히 설명했는지
수학적으로 PCA는 고유 분해 또는 svd 분해라는 선형 대수 함수를 통해 수행됩니다. 이 기능은 당신에게 모든 고유 돌아갑니다 1.651354285 1.220288343 .576843142
(한 번에 (및 대응하는 고유 벡터)를 참조 , 참조 ).