정식 상관 분석 (CCA)은 주성분 분석 (PCA)과 관련된 기술입니다. 산점도를 사용하여 PCA 또는 선형 회귀를 가르치는 것은 쉽지만 (Google 이미지 검색에 대한 수천 가지 예 참조) CCA에 대한 유사한 직관적 인 2 차원 예는 보지 못했습니다. 선형 CCA의 기능을 시각적으로 설명하는 방법은 무엇입니까?
정식 상관 분석 (CCA)은 주성분 분석 (PCA)과 관련된 기술입니다. 산점도를 사용하여 PCA 또는 선형 회귀를 가르치는 것은 쉽지만 (Google 이미지 검색에 대한 수천 가지 예 참조) CCA에 대한 유사한 직관적 인 2 차원 예는 보지 못했습니다. 선형 CCA의 기능을 시각적으로 설명하는 방법은 무엇입니까?
답변:
글쎄, 나는 PCA ( Principal Components Analysis ) 또는 선형 회귀에 대한 정식 상관 분석 (CCA)에 대한 시각적 설명을 제시하는 것이 실제로 어렵다고 생각한다 . 후자의 2 개는 종종 2D 또는 3D 데이터 산점도를 통해 설명되고 비교되지만 CCA를 통해 가능할지는 의심됩니다. 아래에는 세 가지 절차의 본질과 차이점을 설명 할 수있는 그림이 그려져 있지만 "주제 공간"의 벡터 표현 인 이러한 그림으로도 CCA를 적절하게 캡처하는 데 문제가 있습니다. (정규 상관 분석의 대수 / 알고리즘은 여기를보십시오 .)
축이 변수 인 공간에서 일반적인 산점도 인 점으로 개인을 점으로 그리는 것은 가변 공간 입니다. 점과 개인을 축으로 반대 방향으로 변수를 그리면 주제 공간이 됩니다. 공간이 중복되지 않은 치수의 수를 비공 선형 변수의 수와 같기 때문에 많은 축을 그리는 것은 실제로 불필요합니다. 가변 점은 원점과 연결되고 주제 공간에 걸쳐있는 벡터, 화살표를 형성합니다. 그래서 여기에 있습니다 ( 참조 ). 대상 공간에서 변수가 중심에 놓인 경우 벡터 간 각도의 코사인은 벡터 간의 피어슨 상관 관계 이며 벡터 길이의 제곱은 분산입니다.. 아래 그림에서 표시되는 변수는 중앙에 있습니다 (상수가 필요하지 않음).
변수 과 양의 상관 관계가 있습니다. 변수 사이에는 예각이 있습니다. 주성분 과 는 두 변수에 의해 걸쳐있는 동일한 공간 "평면 X"에 있습니다. 구성 요소도 서로 직교 (비 상관) 변수입니다. 방향 이 두 성분의 제곱 하중의 합을 최대화하는 것과 같은 것이다; 및 , 나머지 성분은 직교 간다
PCA에서 변수 세트는 스스로 예측합니다. 변수를 다시 모델링하는 주요 구성 요소를 모델링하고 예측 변수의 공간을 남기지 않으며 (모든 구성 요소를 사용하는 경우) 예측에는 오류가 없습니다. 다중 회귀 분석에서 변수 세트는 하나의 외부 변수를 예측하므로 예측 오류가 있습니다. CCA에서 상황은 회귀 분석의 상황과 유사하지만 (1) 외부 변수는 여러 개이며 자체 집합을 형성합니다. (2) 두 세트는 서로를 동시에 예측합니다 (따라서 회귀보다는 상관 관계). (3) 그들이 서로 예측하는 것은 관측 된 예측 및 회귀보다 잠복 변수 인 추출이다 ( 참조 ).
CCA와 PCA + 회귀의 차이점은 CCA 수행과 PCA를 사용 하여 종속 변수 작성 및 회귀 수행을 참조하십시오 .
저에게 S. Mulaik "인자 분석의 기초"(1972) 책을 읽어 보면, 순전히 상관 관계에 도달하기 위해 인자 로딩 행렬의 회전에 대한 방법이 있다는 것을 알 수있었습니다. 주요 구성 요소 분석 및 요인 분석에서 지금까지 이미 이해 한 개념의 앙상블에서.
아마도이 예제에 관심이있을 것입니다 (SPSS의 계산과 비교하여 메소드를 교차 확인하고 다시 확인하기 위해 며칠 전에 1998 년 약 첫 구현 / 토론에서 다시 작성했습니다). 여기를 참조 하십시오 . 나는 작은 매트릭스 / pca-tools를 사용 Inside-[R]
하고 Matmate
있지만 R
너무 많은 노력없이 재구성 할 수 있다고 생각합니다 .
이 답변은 CCA를 이해하기위한 시각적 도움을 제공하지는 않지만 CCA에 대한 좋은 기하학적 해석 은 Anderson-1958의 12 장에 제시되어있다 [1]. 그것의 요지는 다음과 같습니다.
나는 이러한 관점이 다음과 같은 이유로 흥미 롭다는 것을 안다.
[1] Anderson, TW 다변량 통계 분석에 대한 소개. Vol. 2. 뉴욕 : 1958 년 Wiley.