주요 구성 요소 분석 (PCA) 이 주제 (이중) 공간에서 작동하는 방식을 직관적으로 이해하려고 합니다. .
두 개의 변수 과 와 데이터 포인트를 갖는 2D 데이터 세트를 고려하십시오 (데이터 매트릭스 는 이며 중앙에 있다고 가정). PCA의 일반적인 표현은 우리 가 R 2 에서 포인트를 고려 하고 2 × 2 공분산 행렬을 쓰고 고유 값과 고유 값을 찾는 것입니다. 첫 번째 PC는 최대 분산 방향 등에 해당합니다. 공분산 행렬 C = ( 4 2 2 2 )의 예. 빨간색 선은 각 고유 값의 제곱근에 의해 스케일 된 고유 벡터를 나타냅니다.
이제 이중 공간 (머신 러닝에 사용되는 용어) 으로 알려진 주제 공간 (@ttnphns에서이 용어를 배웠습니다) 에서 발생하는 상황을 고려 하십시오. 이것은 두 개의 변수 ( X의 두 열)의 샘플이 두 개의 벡터 x 1 과 x 2를 형성 하는 n 차원 공간 입니다. 각 가변 벡터의 제곱 길이는 분산과 같으며 두 벡터 사이의 각도 코사인은 이들 사이의 상관과 같습니다. 그건 그렇고,이 표현은 다중 회귀 치료에서 매우 표준입니다. 내 예에서 주제 공간은 다음과 같습니다 (두 개의 가변 벡터로 스팬 된 2D 평면 만 보여줍니다).
두 변수의 선형 조합 인 주성분 은 동일한 평면에 두 개의 벡터 과 p 2 를 형성합니다. 내 질문은 : 그런 플롯에서 원래 변수 벡터를 사용하여 주요 구성 요소 변수 벡터 를 형성 하는 방법에 대한 기하학적 이해 / 직관은 무엇입니까? x 1 과 x 2가 주어지면 , 어떤 기하학적 절차 가 p 1을 산출 할까요?
아래는 나의 현재 부분 이해입니다.
우선, 표준 방법을 통해 주요 구성 요소 / 축을 계산하고 동일한 그림에 플롯 할 수 있습니다.
또한, 은 x i (파란색 벡터)와 p 1 에서의 투영 값 사이의 제곱 거리의 합 이 최소 가되도록 선택 됨을 알 수있다 . 이러한 거리는 재구성 오류이며 검은 색 점선으로 표시됩니다. 동등하게, p 1 은 두 투영의 제곱 길이의 합을 최대화합니다. 이것은 p 1을 완전히 지정 하고 물론 기본 공간의 유사한 설명과 완전히 유사합니다 ( 주성분 분석, 고유 벡터 및 고유 값 이해에 대한 내 대답의 애니메이션 참조 ). @ttnphns의 답변 의 첫 번째 부분도 참조 하십시오 .
그러나 이것은 충분히 기하학적이지 않습니다! 그것은 그런 p 를 찾는 방법을 알려주지 않습니다 1 않고 길이를 지정하지 않습니다.
내 생각에 , x 2 , p 1 및 p 2는 모두 0 을 중심으로 한 타원에 놓여 있고 p 1 과 p 2 가 주축입니다. 다음은 내 예에서 어떻게 보이는지입니다.
Q1 : 그것을 증명하는 방법? 직접적인 대수적 데모는 매우 지루한 것으로 보인다. 어떻게 확인 하는 ?
그러나 중심으로 x 1 과 x 2를 통과하는 많은 다른 타원이 있습니다 .
Q2 : "올바른"타원은 무엇입니까?내 첫 번째 추측은 가능한 가장 긴 주축을 가진 타원이라는 것입니다. 그러나 그것은 잘못된 것 같습니다 (모든 길이의 주축이있는 타원이 있습니다).
Q1과 Q2에 대한 답변이 있다면, 둘 이상의 변수의 경우에 일반화되는지 알고 싶습니다.
variable space (I borrowed this term from ttnphns)
-@amoeba, 착각해야합니다. (원래의) n- 차원 공간에서 벡터로서의 변수는 주제 공간 (p- 변수가 그것을 "스팬"하는 동안 축으로 n 개의 주제는 공간을 "정의한")이라고한다. 반대로 가변 공간 은 반대로, 즉 일반적인 산점도입니다. 다변량 통계에서 용어가 설정되는 방식입니다. (머신 러닝에서 차이가 있다면 – 나는 그것을 모른다 – 학습자가 훨씬 더 나쁘다.)
My guess is that x1, x2, p1, p2 all lie on one ellipse
여기서 타원의 휴리스틱 지원은 무엇입니까? 나는 그것을 의심한다.