주성분 분석 (PCA)에서 공분산 행렬 또는 상관 행렬을 선택하여 성분을 찾을 수 있습니다 (각 고유 벡터에서). 두 행렬 사이의 고유 벡터가 같지 않기 때문에 서로 다른 결과 (PC 로딩 및 점수)를 제공합니다. 내 이해는 이것이 원시 데이터 벡터 와 표준화 가 직교 변환을 통해 연관 될 수 없기 때문에 발생한다는 것입니다 . 수학적으로, 유사한 행렬 (즉, 직교 변환에 의해 관련됨)은 동일한 고유 값을 갖지만 반드시 동일한 고유 벡터는 아닙니다.Z
이것은 내 마음에 약간의 어려움을 제기합니다.
동일한 시작 데이터 세트에 대해 서로 다른 두 가지 답변을 얻을 수 있다면 PCA는 실제로 의미가 있습니까?
상관 행렬 접근법을 사용할 때 PC를 계산하기 전에 각 변수는 자체 표준 편차로 표준화 (축소)됩니다. 그렇다면 데이터가 이미 미리 스케일링 / 압축 된 경우 최대 분산의 방향을 찾는 것이 어떻게 합리적입니까? 상관 관계 기반 PCA가 매우 편리하다는 것을 알고 있습니다 (표준 변수는 차원이 없으므로 선형 조합을 추가 할 수 있습니다. 다른 장점은 실용주의를 기반으로합니다).
공분산 기반 PCA는 (변수의 분산이 크게 다른 경우에도) 유일하게 정확한 것으로,이 버전을 사용할 수 없을 때마다 상관 기반 PCA도 사용해서는 안됩니다.
상관 관계 또는 공분산에 대한 PCA 라는이 스레드가 있다는 것을 알고 있습니다 . -그러나 대수적으로 올바른 솔루션 일 수도 있고 아닐 수도있는 실용적인 솔루션을 찾는 데에만 초점을 둔 것 같습니다.