주요 성분 분석과 비교하여 표준 상관 분석이 수행하는 작업을 시각화하는 방법은 무엇입니까?


70

정식 상관 분석 (CCA)은 주성분 분석 (PCA)과 관련된 기술입니다. 산점도를 사용하여 PCA 또는 선형 회귀를 가르치는 것은 쉽지만 (Google 이미지 검색에 대한 수천 가지 예 참조) CCA에 대한 유사한 직관적 인 2 차원 예는 보지 못했습니다. 선형 CCA의 기능을 시각적으로 설명하는 방법은 무엇입니까?


1
CCA는 어떤 방식으로 PCA를 일반화합니까? 나는 그것이 일반화라고 말하지 않을 것입니다. PCA는 하나의 변수 세트와 함께 작동하고 CCA는 두 개 (또는 그 이상의 최신 구현)와 함께 작동하며 이는 큰 차이입니다.
ttnphns

2
음, 엄밀히 말하면 관련된 단어가 더 나은 선택 일 수 있습니다. 어쨌든 PCA는 공분산 행렬에서 작동하고 CCA는 공분산 행렬에서 작동합니다. 데이터 집합이 하나 뿐인 경우 자체 공분산을 계산하면 더 간단한 경우 (PCA)가됩니다.
그림

4
예, "관련"이 더 좋습니다. CCA는 상호 공분산과 교차 공분산을 모두 고려합니다.
ttnphns

1
일부는 헬리오 그래프를 사용하여 정식 상관 관계를 시각화 할 것을 제안했습니다. 당신은 종이 읽어보십시오 ti.arc.nasa.gov/m/profile/adegani/Composite_Heliographs.pdf을

답변:


97

글쎄, 나는 PCA ( Principal Components Analysis ) 또는 선형 회귀에 대한 정식 상관 분석 (CCA)에 대한 시각적 설명을 제시하는 것이 실제로 어렵다고 생각한다 . 후자의 2 개는 종종 2D 또는 3D 데이터 산점도를 통해 설명되고 비교되지만 CCA를 통해 가능할지는 의심됩니다. 아래에는 세 가지 절차의 본질과 차이점을 설명 할 수있는 그림이 그려져 있지만 "주제 공간"의 벡터 표현 인 이러한 그림으로도 CCA를 적절하게 캡처하는 데 문제가 있습니다. (정규 상관 분석의 대수 / 알고리즘은 여기를보십시오 .)

축이 변수 인 공간에서 일반적인 산점도 인 점으로 개인을 점으로 그리는 것은 가변 공간 입니다. 점과 개인을 축으로 반대 방향으로 변수를 그리면 주제 공간이 됩니다. 공간이 중복되지 않은 치수의 수를 비공 선형 변수의 수와 같기 때문에 많은 축을 그리는 것은 실제로 불필요합니다. 가변 점은 원점과 연결되고 주제 공간에 걸쳐있는 벡터, 화살표를 형성합니다. 그래서 여기에 있습니다 ( 참조 ). 대상 공간에서 변수가 중심에 놓인 경우 벡터 간 각도의 코사인은 벡터 간의 피어슨 상관 관계 이며 벡터 길이의 제곱은 분산입니다.. 아래 그림에서 표시되는 변수는 중앙에 있습니다 (상수가 필요하지 않음).

주요 구성 요소

여기에 이미지 설명을 입력하십시오

변수 X1X2 양의 상관 관계가 있습니다. 변수 사이에는 예각이 있습니다. 주성분 P1P2 는 두 변수에 의해 걸쳐있는 동일한 공간 "평면 X"에 있습니다. 구성 요소도 서로 직교 (비 상관) 변수입니다. 방향 P1 이 두 성분의 제곱 하중의 합을 최대화하는 것과 같은 것이다; 및 P2 , 나머지 성분은 직교 간다 P1abbb12/(|P1||X2|)a

다중 회귀

여기에 이미지 설명을 입력하십시오

YX1X2YYYXeYYYbbb2/|X2|

정식 상관

PCA에서 변수 세트는 스스로 예측합니다. 변수를 다시 모델링하는 주요 구성 요소를 모델링하고 예측 변수의 공간을 남기지 않으며 (모든 구성 요소를 사용하는 경우) 예측에는 오류가 없습니다. 다중 회귀 분석에서 변수 세트는 하나의 외부 변수를 예측하므로 예측 오류가 있습니다. CCA에서 상황은 회귀 분석의 상황과 유사하지만 (1) 외부 변수는 여러 개이며 자체 집합을 형성합니다. (2) 두 세트는 서로를 동시에 예측합니다 (따라서 회귀보다는 상관 관계). (3) 그들이 서로 예측하는 것은 관측 된 예측 및 회귀보다 잠복 변수 인 추출이다 ( 참조 ).

여기에 이미지 설명을 입력하십시오

Y1Y2XYVxVyYYYVxVyVyVxϕXYX1 X2Y1 Y2Vx(2)VxVy(2)Vy

CCA와 PCA + 회귀의 차이점은 CCA 수행과 PCA를 사용 하여 종속 변수 작성 및 회귀 수행을 참조하십시오 .


3
+1 (일 전부터). 나는 당신이 이것에 대해 6 이상의 투표를 끝내기를 바랍니다. CCA의 작동 방식에 대한 훌륭한 개요입니다.
gung

2
이를 통해 CCA를 이해하는 데 많은 도움이됩니다.
Zhenglei

@Glen_b, 나는 당황 스러워서이 답변에 상을 주겠다고 결정한 것을 매우 기쁘게 생각합니다.
ttnphns

1
@ttnphns, 훌륭합니다. 비록 모든 것을 이해하지는 못했지만, 지금까지 내가 만난 CCA에 대한 최고의 설명입니다. 그리고 나는 다른 이론을 통해 사행하는 것과는 반대로, 그것을 시각화 할 수 있다면 무언가를 기억할 것이라는 것을 알고 있기 때문에 무슨 일이 일어나고 있는지를 시각적으로 보는 것이 정말로 중요하다고 생각합니다.
Christian

P1X1X2

2

저에게 S. Mulaik "인자 분석의 기초"(1972) 책을 읽어 보면, 순전히 상관 관계에 도달하기 위해 인자 로딩 행렬의 회전에 대한 방법이 있다는 것을 알 수있었습니다. 주요 구성 요소 분석 및 요인 분석에서 지금까지 이미 이해 한 개념의 앙상블에서.

아마도이 예제에 관심이있을 것입니다 (SPSS의 계산과 비교하여 메소드를 교차 확인하고 다시 확인하기 위해 며칠 전에 1998 년 약 첫 구현 / 토론에서 다시 작성했습니다). 여기를 참조 하십시오 . 나는 작은 매트릭스 / pca-tools를 사용 Inside-[R]하고 Matmate있지만 R너무 많은 노력없이 재구성 할 수 있다고 생각합니다 .


2

이 답변은 CCA를 이해하기위한 시각적 도움을 제공하지는 않지만 CCA에 대한 좋은 기하학적 해석 은 Anderson-1958의 12 장에 제시되어있다 [1]. 그것의 요지는 다음과 같습니다.

Nx1,x2,...,xNpXp×NxiXp(N1)p1p2x1,...,xp1p2xp1+1,...,xp

나는 이러한 관점이 다음과 같은 이유로 흥미 롭다는 것을 안다.

  • CCA 표준 변수의 항목에 대한 흥미로운 기하학적 해석을 제공합니다.
  • 상관 계수는 두 CCA 투영 사이의 각도에 연결됩니다.
  • 의 비율p1Np2N(N1)N

p1p2

(N1)Nmean(xi)=0

[1] Anderson, TW 다변량 통계 분석에 대한 소개. Vol. 2. 뉴욕 : 1958 년 Wiley.


1
그 책에서 그림을 추가하여 답을 시각화 할 수 있습니까?
ttnphns

불행히도,이 책에는이 장의 그림이 없습니다 (사실 책 전체에 어떤 인물도 없다고 생각합니다).
idnavid

@ttnphns 나는 다른 날에 시간을 보냈고이 점을 설명하기 위해 작은 예를 모았습니다. 제안 해 주셔서 감사합니다!
idnavid

1

통계를 가르치는 가장 좋은 방법은 데이터를 사용하는 것입니다. 다변량 통계 기법은 종종 직관적이지 않은 행렬로 매우 복잡합니다. Excel을 사용하여 CCA를 설명하겠습니다. 두 개의 표본을 만들고 새 변이 (기본적으로 열)를 추가하고 계산을 표시합니다. CCA의 매트릭스 구성에 관한 한, 가장 좋은 방법은 이변 량 사례를 먼저 가르치고 확장하는 것입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.