주요 성분 분석, 고유 벡터 및 고유 값 이해

976

오늘의 패턴 인식 수업에서 교수님은 PCA, 고유 벡터 및 고유 값에 대해 이야기했습니다.

나는 그것의 수학을 이해했다. 고유 값 등을 찾도록 요청 받으면 기계처럼 올바르게 수행합니다. 그러나 나는 그것을 이해 하지 못했습니다 . 나는 그것의 목적을 얻지 못했습니다. 나는 그것을 느끼지 못했습니다.

나는 다음 인용문을 강력하게 믿는다.

할머니에게 설명 할 수 없다면 실제로 무언가를 이해하지 못합니다. -앨버트 아인슈타인

글쎄요, 저는이 개념들을 평신도 나 할머니에게 설명 할 수 없습니다.

왜 PCA, 고유 벡터 및 고유 값인가? 이러한 개념에 필요한 것이 무엇입니까 ?
이것을 평신도에게 어떻게 설명 하시겠습니까?

— 집게발
소스

95

좋은 질문. 나는 인용문에도 동의한다. 나는 통계와 수학 분야에 많은 사람들이 고도로 지능적이고 그들의 일에 깊이 빠져들 수 있지만 그들이 무엇을하고 있는지 깊이 이해하지 못한다고 믿는다. 또는 다른 사람들에게 설명 할 수는 없습니다. 나는 여기에 일반 영어로 답을 제공하고 계획적인 영어 답변을 요구하는 질문을합니다.

— Neil McGuigan

7

이것은 7 월에 수학 사이트에서 요청되었지만 잘되지 않았으며 많은 대답을 얻지 못했습니다 (놀라운 점은 다른 초점을 감안할 때). math.stackexchange.com/questions/1146/…

— whuber

6

Zuur 등의 생태 학적 데이터 분석에서 오버 헤드 프로젝터에 손을 투영하는 방법에 대한 설명과 비슷합니다. 손을 계속 돌리면 벽의 투영이 손 모양과 비슷하게 보입니다.

— Roman Luštrik

12

이 질문은 좋은 논문으로 이끌어 주며, 비록 그것이 큰 인용이라고 생각하지만 아인슈타인이 아닙니다. 이것은 일반적인 잘못된 귀인이며, 아마도 어니스트 러더 포드 (Ernest Rutherford)의 인용문은 아마도 "물리학을 바텐더에게 설명 할 수 없다면 아마도 그다지 좋은 물리학은 아닐 것입니다."라고 말했을 것입니다. 이 스레드를 시작해 주셔서 감사합니다.

— gavaletz

23

최고의 할당량 아인슈타인 인 Alice Calaprice는 프린스턴 UP 2011 에서이 인용문을 "아인슈타인이 아닌 것"중 하나로 인용합니다. p.482를 참조하십시오.

— Nick Cox

1293

모두가 PCA에 대해 질문하기 시작하는 대가족 만찬을 상상해보십시오. 먼저 증조 할머니에게 설명하십시오. 그런 다음 할머니에게; 그런 다음 어머니에게; 그런 다음 배우자에게; 마지막으로, 당신의 딸 (수학자)에게. 다음 사람이 평신도가 적을 때마다. 대화가 진행되는 방법은 다음과 같습니다.

증조 할머니 : "오줌 만 봐"를 공부한다고 들었습니다. 나는 그것이 무엇인지 궁금합니다 ...

당신 : 아, 그것은 단지 데이터를 요약하는 방법 일뿐입니다. 저기 테이블 위에 와인 병 몇 개가 서 있습니다. 각 와인의 색상, 강도, 나이 등을 설명 할 수 있습니다 ( 여기에서 가져온 와인 속성 의이 매우 멋진 시각화 참조 ). 우리는 지하실에서 각 와인의 다른 특성의 전체 목록을 작성할 수 있습니다. 그러나 많은 사람들이 관련 속성을 측정하므로 중복됩니다. 그렇다면 각 와인을 적은 특성으로 요약 할 수 있어야합니다! 이것이 PCA가하는 일입니다.

할머니 : 이것은 흥미 롭습니다! 그래서이 PCA는 중복되는 특성을 확인하고 버립니다.

당신 : 훌륭한 질문입니다, 할머니! 아니요, PCA는 일부 특성을 선택하지 않고 다른 특성을 폐기합니다. 대신, 그것은 우리의 와인 목록을 잘 요약하는 것으로 밝혀진 몇 가지 새로운 특성을 구성 합니다. 물론 이러한 새로운 특성은 기존 특성을 사용하여 구성됩니다. 예를 들어, 새로운 특성은 와인 연령에서 와인 산도 수준을 뺀 값 또는 이와 유사한 다른 조합으로 계산 될 수 있습니다 (우리는이를 선형 조합 이라고합니다 ).

실제로, PCA는 가능한 가장 좋은 특성, 즉 와인 목록을 요약하고 가능한 모든 선형 조합 중에서 가능한 특성을 찾습니다. 이것이 매우 유용한 이유입니다.

어머니 : 흠, 이것은 확실히 좋은 소리지만, 나는 확실하지 않습니다. 이러한 새로운 PCA 특성이 와인 목록을 "요약"한다고 말할 때 실제로 무엇을 의미합니까?

당신 : 나는이 질문에 대해 두 가지 다른 대답을 줄 수 있다고 생각합니다. 첫 번째 대답은 와인마다 크게 다른 와인 속성 (특성)을 찾고 있다는 것입니다. 실제로, 당신은 대부분의 와인에 대해 동일한 재산을 생각해 낸다고 상상해보십시오. 이것은별로 유용하지 않습니까? 와인은 매우 다르지만, 당신의 새로운 재산은 그것들을 모두 똑같이 보이게합니다! 이것은 분명히 나쁜 요약 일 것입니다. 대신, PCA는 와인에서 가능한 한 많은 변형을 나타내는 특성을 찾습니다.

두 번째 대답은 원래 와인 특성을 예측하거나 "재구성"할 수있는 속성을 찾는 것입니다. 다시, 당신이 원래의 특성과 무관 한 속성을 생각해 냈다고 상상해보십시오. 이 새 속성 만 사용하면 원래 속성을 재구성 할 수있는 방법이 없습니다! 다시 말하지만 이것은 잘못된 요약입니다. 따라서 PCA는 가능한 한 원래 특성을 재구성 할 수있는 특성을 찾습니다.

놀랍게도이 두 가지 목표는 동일하므로 PCA는 하나의 돌로 두 마리의 새를 죽일 수 있습니다.

배우자 :하지만 자기, PCA의이 두 가지 목표는 너무 다르다! 왜 동등한가?

당신 : 흠. 아마도 나는 약간의 그림을 만들어야합니다 (냅킨을 들고 낙서를 시작합니다) . 와인의 암흑과 알코올 함량과 같은 두 가지 와인 특성을 선택합시다. 서로 상관이 있는지는 모르겠지만, 서로 상이하다고 상상해 봅시다. 다른 와인의 산점도는 다음과 같습니다.

PCA 예시 데이터

이 "와인 구름"의 각 점은 하나의 특정 와인을 보여줍니다. 두 속성 ( 이 그림에서 와 )이 서로 관련되어 있음을 알 수 있습니다. 이 와인 구름의 중심을 통해 선을 그리고 모든 선을이 선에 투영하여 새로운 속성을 만들 수 있습니다. 새로운 특성은 선형 조합에 의해 설명한다 각 행은 어떤 특정 값에 대응 및 . $x$ $y$ $w_1 x + w_2 y$ $w_1$ $w_2$

이제 여기를 매우 신중하게 살펴보십시오. 다음은 이러한 선이 다른 선에서 어떻게 보이는지입니다 (빨간색 점은 파란색 점의 투영입니다).

PCA 애니메이션 : 분산 및 재구성 오류

앞에서 말했듯이 PCA는 "최고"의 두 가지 기준에 따라 "최고"라인을 찾습니다. 첫째,이 선을 따른 값의 변동은 최대 여야합니다. 선이 회전하는 동안 빨간 점의 "확산"( "분산")이 어떻게 변하는 지주의하십시오. 최대에 도달했을 때 볼 수 있습니까? 둘째, 새로운 두 특성 (빨간색 점의 위치)에서 원래의 두 특성 (파란색 점의 위치)을 재구성하는 경우 연결 빨간색 선의 길이에 따라 재구성 오류가 발생합니다. 선이 회전하는 동안이 빨간 선의 길이가 어떻게 변하는 지 관찰하십시오. 총 길이가 최소에 도달했을 때를 볼 수 있습니까?

이 애니메이션을 일정 시간 동안 응시하면 "최대 편차"와 "최소 오류"에 동시에 도달합니다. 즉, 선이 와인 구름의 양쪽에 표시된 자홍색 눈금을 가리킬 때 . 이 라인은 PCA가 건설 할 새로운 와인 속성에 해당합니다.

그런데 PCA는 "주성분 분석"의 약자이며이 새로운 속성을 "제 1 주성분"이라고합니다. "속성"또는 "특성"이라고 말하는 대신 일반적으로 "기능"또는 "가변"이라고합니다.

딸 : 아주 좋아, 아빠! 나는 왜 두 목표가 같은 결과를 가져 오는지 알 수 있다고 생각합니다. 그것은 본질적으로 피타고라스 정리 때문입니까? 어쨌든, 나는 PCA가 어떻게 든 고유 벡터와 고유 값과 관련이 있다고 들었습니다. 이 사진에서 그들은 어디에 있습니까?

당신 : 훌륭한 관찰. 수학적으로, 붉은 점들의 퍼짐은 와인 구름의 중심에서 각 붉은 점까지의 평균 제곱 거리로 측정됩니다. 아시다시피,이를 분산 이라고합니다 . 한편, 전체 재구성 오차는 대응하는 레드 라인의 평균 제곱 길이로서 측정된다. 그러나 빨간색 선과 검은 선 사이의 각도는 항상 두 수량의 합은 와인 구름 중심과 각 파란색 점 사이의 평균 제곱 거리와 같습니다. 이것은 정확히 피타고라스 정리입니다. 물론이 평균 거리는 검은 선의 방향에 의존하지 않으므로 분산이 높을수록 오차가 작아집니다 (총합이 일정하기 때문에). 이 손으로 만든 논쟁은 정확할 수 있습니다. $90^\circ$ 여기 참조 ).

그건 그렇고, 검은 선이 단단한 막대이고 각 빨간 선이 스프링이라고 상상할 수 있습니다. 스프링의 에너지는 제곱 길이 (물리학에서 Hooke의 법칙으로 알려짐)에 비례하므로 막대는 이러한 제곱 거리의 합을 최소화하도록 방향을 잡습니다. 점성 마찰이있을 때의 모습을 시뮬레이션했습니다.

PCA 애니메이션 : 진자

고유 벡터와 고유 값에 대하여. 공분산 행렬 이 무엇인지 알고 있습니다 . 내 예제에서는 의해 주어진 행렬입니다이것은 변수 의 분산 이 이고 변수 의 분산 이 이고 이들 사이의 공분산이 합니다. 정사각형 대칭 행렬이므로 고유 벡터에 의해 주어진 새로운 직교 좌표계를 선택하여 대각선화할 수 있습니다 (우연히 스펙트럼 정리 라고 함). $2\times 2$

(\begin{matrix} 1.07 & 0.63 \\ 0.63 & 0.64 \end{matrix}) .

$\begin{pmatrix}1.07 &0.63\\0.63 & 0.64\end{pmatrix}.$

x

$x$

1.07

$1.07$

y

$y$

0.64

$0.64$

0.63

$0.63$

); 그러면 해당 고유 값이 대각선에 위치합니다. 새로운 좌표 시스템에서, 공분산 매트릭스는 대각선 그 같다 : 지점 사이의 상관 관계는 이제 제로임을 의미한다. 모든 투영의 분산은 고유 값의 가중 평균으로 주어질 것입니다 (여기서는 직관을 스케치하고 있습니다). 결과적으로 단순히 첫 번째 좌표 축에서 투영을 수행하면 가능한 최대 분산 ( )이 달성됩니다. 제 1 주성분의 방향은 공분산 행렬의 제 1 고유 벡터에 의해 주어진다. ( 자세한 내용은 여기 )

(\begin{matrix} 1.52 & 0 \\ 0 & 0.19 \end{matrix}),

$\begin{pmatrix}1.52 &0\\0 & 0.19\end{pmatrix},$

1.52

$1.52$

회전하는 도형에서도 이것을 볼 수 있습니다. 검은 선과 직교하는 회색 선이 있습니다. 함께 회전 좌표 프레임을 형성합니다. 이 회전 프레임에서 파란색 점이 상관 관계가 없는지 확인하십시오. 답은 검은 선이 자홍색 눈금을 가리킬 때 정확하게 발생한다는 것입니다. 이제 그것들을 어떻게 찾았는지 말할 수 있습니다 : 공분산 행렬의 첫 번째 고유 벡터의 방향을 표시합니다.이 경우 과 같습니다 . $(0.81, 0.58)$

인기있는 요청에 따라 위의 애니메이션을 생성하기 위해 Matlab 코드를 공유 했습니다 .

— 아메바
소스

79

+1 멋진 이야기와 삽화. ...then to your mother; then to your wife; finally, to your daughter (who is a mathematician)...나는 계속합니다 : 그리고 저녁 식사 후-당신 자신. 그리고 여기 당신이 갑자기 붙어있어 ...

— ttnphns

68

나는 당신이 대답에 대한 그림을 절대적으로 좋아합니다.

— shadowtalker

57

나는 일반적으로 Cross Validated를 통해 내용을 읽지 만 계정을 만들 이유는 없었습니다. 주로 여기에있는 질문은 전문 지식을 벗어 났으며 실제로 대답 할 수 없기 때문입니다. 나는 보통 StackOverflow에만 있고 지금은 약 1 년 동안 StackExchange 네트워크에있었습니다. 그러나 나는 오늘 귀하의 게시물을 찬성하기 위해 오늘 계정을 만들기로 결정했습니다. 이것은 아마도 내가 읽은 많은 PCA 박람회 일 것입니다. 훌륭한 스토리 텔링, 그래픽, 읽기 쉬운이 멋진 게시물에 감사드립니다! +1

— rayryeng

14

나 자신을위한 참고 사항 : 나의 대답은 현재 100 개의 공감대를 가지고 있으며, JDLong의 답변은 220 개의 공감대를 가지고있다. 우리가 꾸준한 성장을 가정한다면 광산은 연간 100 개의 투표율을 가지고 있고 그의 연간 투표율은 40 년입니다. 또는 2014 년 1 월에 100 개의 공감 률을 획득 한 후 계산 된 경우 55 / 년 (황금 배지 획득). 이는 2018 년 말경 2.5 ~ 3 년 안에 따라 잡을 수 있음을 의미합니다. 보자 :-)

— amoeba

3

계속 참고 사항 : 견적을 업데이트해야합니다. 한 달 후이 답변은 JDLong에 대해 18 개의 공감대를 얻었습니다. 이것은 내가 지금부터 1 년 미만을 따라 잡을 수 있음을 나타냅니다. 흥미롭게도 5 / 월은 위의 예상 55 / 년과 매우 비슷하지만 18 / 월은 100 / 년의 두 배 이상입니다. 내 대답이 변경되지 않았으므로 2 위를 차지하면 업 보팅이 가속화 된 것 같습니다 (아마도 가시성 향상으로 인해).

— amoeba

376

Lindsay I Smith 의 원고 " 주성분 분석에 대한 자습서"는 실제로 PCA를 이해하는 데 도움이되었습니다. 할머니 께 설명하기에는 여전히 너무 복잡하지만 나쁘지는 않습니다. 고유 등을 계산할 때는 처음 몇 비트를 건너 뛰어야합니다. 3 장의 예제로 이동하여 그래프를보십시오.

나는 장난감 예제를 통해 작업 한 PCA 대 OLS 선형 회귀를 이해할 수있는 몇 가지 예가 있습니다. 그것들을 파 내고 게시하려고 노력할 것입니다.

편집 : 당신은 실제로 일반 최소 제곱 (OLS)과 PCA의 차이점에 대해 묻지 않았지만 노트를 찾은 후 블로그 게시물을 작성했습니다 . 매우 짧은 버전은 y ~ x의 OLS이며 다음과 같이 독립 축에 수직 인 오류를 최소화합니다 (노란색 선은 두 가지 오류의 예입니다).

대체 텍스트

x ~ y를 회귀한다면 (첫 번째 예에서 y ~ x와 반대) 다음과 같은 오류를 최소화합니다.

대체 텍스트

PCA는 다음과 같이 모델 자체에 직교하는 오류를 효과적으로 최소화합니다.

대체 텍스트

더 중요한 것은 다른 사람들이 말했듯이 독립 변수로 구성된 전체 범프가있는 상황에서 PCA는 이러한 변수의 선형 조합이 가장 중요한 것을 파악하는 데 도움이됩니다. 위의 예제는 첫 번째 주요 구성 요소가 실제로 간단한 경우의 모습을 시각화하는 데 도움이됩니다.

내 블로그 게시물에는 위의 그래프를 만들고 첫 번째 주요 구성 요소를 계산하기위한 R 코드가 있습니다. PCA에 대한 직관을 구축하는 것이 좋습니다. 나는 그것을 재현하는 코드를 작성할 때까지 실제로 무언가를 소유 하지 않는 경향이 있습니다.

— JD 롱
소스

9

린제이 1 세 스미스 원고를 잘 부르십시오. 오늘 읽어보세요. 매우 도움이됩니다.

— Stedy

7

PCA가 점에서 맞춤 선까지의 직교 거리를 최적화하는 경우 총 최소 제곱과 동일합니까?

— Marcin

3

@Marcin-맞습니다. 당신은 다시 구 할 수 PCA를 최고의 순위 찾는로

(추정

원본)

(변수

m

$m$

1 \leq m \leq p

$1\leq m\leq p$

p

$p$

의 목적 함수)

. PC 수를 선택하는 것은 예측 순위를 선택하는 것과 같습니다.

{\hat{x}}_{i j} i = 1, \dots, n j = 1, \dots, p

$\hat{x}_{ij}\;\;\;\; i=1,\dots,n\;\;\;j=1,\dots,p$

\sum_{i = 1}^{n} \sum_{j = 1}^{p} (x_{i j} - {\hat{x}}_{i j})^{2}

$\sum_{i=1}^{n}\sum_{j=1}^{p}(x_{ij}-\hat{x}_{ij})^{2}$

— chanceislogic

3

Smith의 작은 수학 오류 : "매트릭스의 모든 고유 벡터는 직각입니다 ... 치수는 아무리 많아도"는 대칭 행렬에만 적용됩니다. 여기에는 45도 떨어져 있습니다. Smith는 공분산 행렬의 대칭에 대해서는 앞서 언급했지만 의미는 아닙니다 n. 대칭은 수직 고유 벡터를 보장합니다 . 실제로 모든 실제 n x n행렬에 실제 고유 값 (예 : {{0,1}, {-1,0}})이있는 것은 아니며 n독립 행렬이없는 (예 : {{1,1}, {0 ,1}})! 대칭이 중요합니다!

— Silverfish

8

고유 벡터를 가르치는 수학자로서이 Lindsay Smith 원고를 읽을 때 울부 짖어 야합니다. "... 결과 벡터는 원래의 정수배입니다 ..."- 정수 를 언급하는 요점은 무엇 입니까? 행렬 A의 고유 벡터는 AX가 X의 배수가되도록 모든 벡터 X입니다 . 정수 배수가 아니라 단지 배수입니다! 정수가 아닌 배수도 좋습니다! 왜 불필요한 혼란을 일으키는가?

— Dmitri Zaitsev

144

먼저 (2) 해봅시다. PCA는 데이터에 타원체를 맞 춥니 다. 타원체는 시가, 팬케이크 및 계란과 같은 왜곡 된 구형의 다차원 일반화입니다. 이것들은 모두 시가 또는 계란의 축 또는 팬케이크의 평면과 같은 주축 (반축)의 방향과 길이로 깔끔하게 설명됩니다. 타원체가 어떻게 회전 되든, 고유 벡터는 그 주요 방향을 가리키고 고유 값은 길이를 제공합니다. 가장 작은 고유 값은 변동이 가장 적은 가장 얇은 방향에 해당하므로이를 무시하면 (평평하게 접힘) 상대적으로 적은 정보가 손실됩니다. 즉 PCA입니다.

(1) 단순화 (위) 외에도, 우리는 간결한 설명, 시각화 및 통찰력이 필요합니다. 차원을 줄일 수 있다는 것은 좋은 일입니다. 데이터를보다 쉽게 설명 할 수 있으며 데이터를 3 이하로 줄이면 운 좋게 그림을 그릴 수 있습니다. 때로는 그림의 좌표로 표현 된 데이터의 조합을 해석하는 유용한 방법을 찾아서 변수의 결합 동작에 대한 통찰력을 얻을 수 있습니다.

그림은 각 구름의 50 %를 포함하는 타원체와 주 방향과 정렬 된 축과 함께 각각 포인트의 구름을 보여줍니다 . 첫 번째 행에서 구름은 본질적으로 모든 분산의 95 %를 구성하는 하나의 주요 구성 요소를 갖습니다. 이들은 시가 모양입니다. 두 번째 줄에서 구름은 본질적으로 두 가지 주요 구성 요소를 가지며, 하나는 다른 것보다 약 두 배 크기이며 함께 모든 분산의 95 %를 구성합니다. 이들은 팬케이크 모양입니다. 세 번째 행에서 세 가지 주요 구성 요소는 모두 크기 조정이 가능합니다. 이들은 계란 모양입니다. $200$

피규어

군집이나 덩굴손 또는 특이 치를 나타내지 않는다는 의미에서 "일관성있는"3D 포인트 클라우드는 이들 중 하나와 같습니다. 모든 포인트가 일치하지 않을 경우 3D 포인트 클라우드 는 추가 클러스터링 또는 패터닝을 식별하기위한 초기 출발점으로 이러한 수치 중 하나로 설명 할 수 있습니다 .

이러한 구성을 고려하여 개발 한 직관은 이러한 차원을 시각화하기 어렵거나 불가능하더라도 더 높은 차원에 적용될 수 있습니다.

— 우버
소스

2

여기에 (거의) 동일한 반축이있을 때 (즉, 타원에 (거의) 원형 조각이있는 경우), 해당 축에 해당하는 두 개의 데이터 조각이 (거의) 종속적임을 나타냅니다. 타원의 주축에 대해 이야기 할 수 있지만 원의 반지름은 하나뿐입니다. :)

— JM은 통계학자가 아닙니다.

6

JM First는 "가까운 의존성"을 통해 "거의 독립적"을 의미해야한다는 점을 분명히 설명합니다. 이것은 다중 정규 변량의 경우에 해당되지만 많은 경우 PCA는 비정규 데이터로 수행됩니다. 실제로 일부 PCA 계산을 따르는 군집 분석은 강력한 비정규 형태를 평가하는 한 가지 방법으로 볼 수 있습니다. 수학적으로, 원 않습니다 주축을 가지고 있지만 그들은 단지 고유하게 결정하지 않은 : 당신은 그들의 주축으로 반경의 직교 쌍을 선택할 수 있습니다.

— whuber

1

예, 죄송합니다. "원의 주축이 결정되지 않았습니다"가 더 나은 방법이라고 생각합니다.

— JM은 통계학자가 아닙니다.

2

아주 좋은 해석! PCA 수학에서 "PCA가 데이터에 타원체에 적합 함"을 알 수있는 곳은 어디입니까?

— Kochede

4

@Kochede 타원체는 2 차 형태의 윤곽입니다. 공분산 행렬은 2 차 형태입니다. PCA는 축과 길이를 식별합니다.

— whuber

106

흠, 여기 PCA를 완전히 수학적으로 다루지 않습니다 ...

사이다 가게를 열었다 고 상상해보십시오. 50 종의 사이다가 있으며 선반에 할당하는 방법을 연구하여 비슷한 맛의 사이다가 같은 선반에 놓 이도록합니다. 사이다에는 단맛, 타트 니스, 쓴맛, 효모, 결실, 선명도, 어지럼증 등 다양한 맛과 질감이 있습니다. 따라서 병을 카테고리로 분류하기 위해해야 할 일은 두 가지 질문에 대한 답입니다.

1) 사이다 그룹을 식별하는 데 어떤 특성이 가장 중요합니까? 예를 들어 단맛을 기준으로 분류하면 과일을 기준으로 분류하는 것보다 사이다를 비슷한 맛 그룹으로 묶는 것이 더 쉬워 집니까?

2) 변수 목록을 결합하여 변수 목록을 줄일 수 있습니까? 예를 들어 실제로 "효모와 선명도 및 fizziness"의 조합 인 변수가 있고 품종을 분류하는 데 실제로 좋은 척도를 만드는가?

이것은 본질적으로 PCA가하는 일입니다. 주성분은 데이터 세트의 변형을 유용하게 설명하는 변수입니다.이 경우 그룹을 유용하게 구별합니다. 각 주요 구성 요소는 원래 설명 변수 중 하나이거나 일부 원래 설명 변수의 조합입니다.

— 프레야 해리슨
소스

4

고유 벡터와 고유 값은 어떻습니까?

— Ηλίας

3

좋아 : 각 주요 구성 요소와 관련된 고유 값은 설명하는 데이터 세트의 편차가 얼마나되는지 알려줍니다 (예에서는 병을 그룹으로 명확하게 구분하는 방법). 일반적으로 데이터 세트의 전체 변동에 대한 백분율로 표시됩니다. Eigenvectors에 관해서는, 그것은 발톱이 기계처럼 분석의 출력을 따른다고 말한 곳입니다. 그들을 생각하는 올바른 방법.

— Freya Harrison

17

고유 벡터는 (단순 또는 회전 요인 공간에서) 원래 변수의 선형 조합입니다. 변수가 각 요인 축에 어떻게 "기여"되는지 설명했습니다. 기본적으로 PCA는 고유 값으로 표현 된대로 원래 가변 공간에서 최대 분산 방향을 가리키는 새 축을 구성하는 방법과이 새로운 공간에서 변수 기여가 가중 또는 선형으로 변환되는 방식으로 생각하십시오.

— chl

이 문제의 공분산 행렬은 무엇입니까? 변수 (단맛, 타르트 함, 쓴맛, 효모, 결실, 선명도, fizziness 등)에 대해 무엇을 알려줍니까?

— JustCurious

1

통계 학자와 주류에 대해 잘 모르겠지만, Whisky Classified 는 스카치 위스키에 대해 이것을 정확하게 수행합니다.

— nekomatic

96

나는 PCA가 데이터 포인트에 직선을 맞추는 것을 목표로하여 "레이맨의 용어"로 대답하고 싶다. 우리는이 직선들을 "주성분"이라고 부릅니다. 변수와 같은 주요 구성 요소가 있습니다. 첫 번째 주성분은 데이터에 가장 적합한 직선입니다. 두 번째 주성분은 첫 번째 주성분의 오차에 가장 적합한 직선입니다. 세 번째 주요 구성 요소는 첫 번째 및 두 번째 주요 구성 요소 등의 오류에 가장 적합한 직선입니다.

누군가가 "최고"또는 "오류"의 의미를 묻는다면, 이것이 "레이맨"이 아니라는 것을 알려주므로 수직 오류와 같은 좀 더 기술적 인 세부 사항으로 들어갈 수 있습니다. 오류의 위치를 모릅니다 x 방향 또는 y 방향, 2 차원 또는 3 차원 이상 등. 또한 OLS 회귀 ( "레이맨"도 이해할 수 없음)를 참조하지 않으면 설명이 더 쉽습니다.

고유 벡터와 고유 값은 개념 자체가 필요하지 않고 이미 존재하는 수학적 개념이되었습니다. PCA의 수학적 문제를 풀면 공분산 행렬의 고유 값과 고유 벡터를 찾는 것과 같습니다.

— 확률 론적
소스

8

+1, 이것은 진정으로 "레이맨의 용어"에 해당되며, 원한다면 매우 엄격하게 파생시킬 수 있다는 것을 알고 있습니다 !

— gung

2

지금까지 가장 좋은 대답은 말할 것입니다. 그리고 나는 PCA를 많이 사용합니다.

— a11msp

2

와우-이것은 정말로 위대하고 간단한 설명입니다! 감사합니다!

— Nick

52

나는 여러분에게 PCA에 대한 설명 / 증명을 줄 수 있습니다. PCA는 정말 간단하고 우아하며 선형 대수학에 대한 기본 지식 외에는 아무것도 필요하지 않습니다. 접근하기 쉬운 언어로 쓰고 싶었 기 때문에 꽤 길었습니다.

$M$ $n$ $n$

$\beta$ $\beta$ $\beta$ $\sum_{i=1}^M \|x_i - \mu\|^2$ $-\mu$ $0$ $x_i' = x_i - \mu$ $\sum_{i=1}^M \|x_i'\|^2$

이제 라인의 선택. 일부 벡터 대해 방정식 를 만족하는 점 집합으로 모든 선을 설명 할 수 있습니다 . 우리가 어떤 벡터에 의해 라인을 이동하는 경우 유의 직교 , 다음 행에있는 모든 돌출부는만큼 이동한다 , 돌기 때문에 평균에 의해 이동 될 , 돌기 때문에, 분산 변경되지 않습니다. 즉, 선을 평행하게 움직일 수 있으며이 선의 투영 분산을 변경할 수 없습니다. 편의상 다시 제로 점을 통과하는 선 ( 기술 된 선을 의미 )으로 제한합니다. $x = \alpha v + w$ $v,w$ $\gamma$ $v$ $\gamma$ $\gamma$ $x = \alpha v$

이제 우리가 찾는 선의 후보가되는 선의 방향을 설명 하는 벡터 가 있다고 가정 합니다. 라인에서 투영의 분산을 계산해야합니다 . 우리에게 필요한 것은 투영 점과 그 평균입니다. 선형 대수에서 우리는이 간단한 경우 에서 의 투영 이 것을 알고 있습니다. 지금부터 단위 벡터 로만 제한하자 . 그것은 우리가 점의 돌출부의 길이를 쓸 수 있습니다 의미 의 간단하게 . $v$ $\alpha v$ $x_i'$ $\alpha v$ $\langle x_i, v\rangle/\|v\|_2$ $v$ $x_i'$ $v$ $\langle x_i', v\rangle$

이전 답변 중 일부에서 누군가는 PCA가 선택한 선에서 거리의 제곱합을 최소화한다고 말했다. 선택한 선으로부터의 거리의 제곱의 합과 제곱의 거리의 합이 점 의 거리의 제곱의 합과 같기 때문에 이제 이것이 사실임을 알 수 있습니다 . 투영 제곱의 합을 최대화함으로써 거리의 제곱 합을 최소화하고 그 반대도 마찬가지입니다. $0$

프로젝션의 평균과 관련하여 는 공간의 직교 기준의 일부이며, 그 기준의 모든 벡터에 데이터 포인트를 투영하면 합계가 취소된다는 점에 유의하십시오. 기준의 벡터는 새로운 직교 기준으로 데이터 포인트를 쓰는 것과 같습니다. 따라서 벡터 에 대한 모든 투영 의 합 (합을 라고 )과 다른 벡터에 대한 투영의 합은 기초 ( 라고 )는 데이터 점의 평균이므로 0입니다. 그러나 직교 ! 이는 의미 합니다. $v$ $v$ $S_v$ $S_o$ $S_v$ $S_o$ $S_o = S_v = 0$

따라서 투영의 평균은 입니다. $0$ 분산은 투영 길이의 제곱의 합 또는 기호 불과하기 때문에 편리합니다.

\sum_{i = 1}^{M} (x_{i}^{'} \cdot v)^{2} = \sum_{i = 1}^{M} v^{T} \cdot x_{i}^{' T} \cdot x_{i}^{'} \cdot v = v^{T} \cdot (\sum_{i = 1}^{M} x_{i}^{' T} \cdot x_{i}) \cdot v .

$\sum_{i=1}^M (x_i' \cdot v)^2 = \sum_{i=1}^M v^T \cdot x_i'^T \cdot x_i' \cdot v = v^T \cdot (\sum_{i=1}^M x_i'^T \cdot x_i) \cdot v.$

음, 공분산 행렬이 갑자기 나타났습니다. 간단히 표시해 봅시다 . 그것은 우리가 지금 단위 벡터를 찾고 의미 극대화 일부 반 정부 호 행렬에 대한, . $X$ $v$ $v^T \cdot X \cdot v$ $X$

이제, 고유 벡터와 행렬의 고유 보자 , 그리고별로을 표시 및 각각 같은 그 . 값이 중복되지 않으면 고유 벡터가 정규 직교 기준을 형성합니다. 만약 그렇다면, 우리는 그것들이 직교 정상적인 기초를 형성하는 방식으로 고유 벡터를 선택합니다. $X$ $e_1, e_2, \dots , e_n$ $\lambda_1 , \dots, \lambda_n$ $\lambda_1 \geq \lambda_2 , \geq \lambda_3 \dots$ $\lambda$

이제 고유 벡터 대해 를 계산해 봅시다 . 우리는 $v^T \cdot X \cdot v$ $e_i$

e_{i}^{T} \cdot X \cdot e_{i} = e_{i}^{T} \cdot (λ_{i} e_{i}) = λ_{i} (‖ e_{i} ‖_{2})^{2} = λ_{i} .

$e_i^T \cdot X \cdot e_i = e_i^T \cdot (\lambda_i e_i) = \lambda_i (\|e_i\|_2)^2 = \lambda_i.$

꽤 좋습니다. 이것은 에 을 제공합니다 . 이제 임의의 벡터 가져 봅시다 . 고유 벡터는 정규 직교 기준을 형성하므로 쓸 수 있으며 입니다. 나타내겠습니다 . $\lambda_1$ $e_1$ $v$ $v = \sum_{i=1}^n e_i \langle v, e_i \rangle$ $\sum_{i=1}^n \langle v, e_i \rangle^2 = 1$ $\beta_i = \langle v, e_i \rangle$

이제 겠습니다 . 우리는 를 의 선형 조합으로 다시 작성 하고 다음을 얻습니다 : $v^T \cdot X \cdot v$ $v$ $e_i$

(\sum_{i = 1}^{n} β_{i} e_{i})^{T} \cdot X \cdot (\sum_{i = 1}^{n} β_{i} e_{i}) = (\sum_{i = 1}^{n} β_{i} e_{i}) \cdot (\sum_{i = 1}^{n} λ_{i} β_{i} e_{i}) = \sum_{i = 1}^{n} λ_{i} (β_{i})^{2} (‖ e_{i} ‖_{2})^{2} .

$(\sum_{i=1}^n \beta_i e_i)^T \cdot X \cdot (\sum_{i=1}^n \beta_i e_i) = (\sum_{i=1}^n \beta_i e_i) \cdot (\sum_{i=1}^n \lambda_i \beta_i e_i) = \sum_{i=1}^n \lambda_i (\beta_i)^2 (\|e_i\|_2)^2.$

마지막 방정식은 쌍으로 직교하도록 선택된 고유 벡터라는 사실에서 나옵니다. 따라서 내적은 0입니다. 이제 모든 고유 벡터도 단위 길이이므로 . 여기서 는 모두 양수이고 합 . $v^T \cdot X \cdot v = \sum_{i=1}^n \lambda_i \beta_i^2$ $\beta_i ^2$ $1$

이는 투영의 분산이 고유 값의 가중 평균임을 의미합니다. 확실히, 그것은 가장 큰 고유 값보다 항상 적기 때문에, 이것이 우리가 첫 번째 PCA 벡터를 선택해야하는 이유입니다.

이제 다른 벡터를 원한다고 가정 해 봅시다. 우리는 그것을 직교 공간에서 이미 선택된 공간으로 선택해야합니다. 즉, 하위 공간 합니다. 유 추적 추론으로 우리는 결론을 내릴 수 있는데, 투영 할 최상의 벡터는 입니다. 그리고 등등 ... $\mathrm{lin}(e_2, e_3, \dots , e_n)$ $e_2$

그건 그렇고, 왜 분산이 왜 로 표현 될 수 있는지 분명 합니다. $\sum_{i=1}^k \lambda_i / \sum_{i=1}^n \lambda_i$

또한 욕심 많은 벡터 선택을 정당화해야합니다. 우리가 선택하려는 경우 벡터에 프로젝트, 먼저 최적의 벡터를 선택하는 좋은 생각되지 않을 수도 있습니다, 다음 등 남아 있고 어떤에서 최고. 이 경우에는 그것이 정당화되고 아무런 차이가 없다고 주장하고 싶습니다. 투영하고자 하는 벡터를 나타냅니다 . 또한 벡터가 쌍으로 직교한다고 가정 해 봅시다. 우리가 이미 알고 있듯이 이러한 벡터에 대한 투영의 총 분산은 여기서 $k$ $k$ $v_1, \dots , v_k$

\sum_{j = 1}^{k} \sum_{i = 1}^{n} λ_{i} β_{i j}^{2} = \sum_{i = 1}^{n} λ_{i} γ_{i}

$\sum_{j=1}^k \sum_{i=1}^n \lambda_i \beta_{ij}^2 = \sum_{i=1}^n \lambda_i \gamma_i$

γ_{i} = \sum_{j = 1}^{k} β_{i j}^{2} .

$\gamma_i = \sum_{j=1}^k \beta_{ij}^2.$

이제 가 포함 된 정규 직교 방식으로 를 . 나머지 기준을 로 . 우리는 볼 수 . 때문에 , 우리가 , 따라서 모든 대해 . $e_i$ $v_1, \dots , v_k$ $u_1, \dots, u_{n-k}$ $e_i = \sum_{j=1}^k \beta_{ij} v_j + \sum_{j=1}^{n-k} \theta_j \langle e_i, u_j \rangle$ $\|e_i\|_2 = 1$ $\sum_{j=1}^k \beta_{ij}^2 + \sum_{j=1}^{n-k} \theta_j^2 = 1$ $\gamma_i \leq 1$ $i$

이제 우리는 하나의 벡터에만 유사한 경우를 가지게되었으며, 이제 투영의 총 분산은 와 및 입니다. 이것은 또 다른 가중 평균이며, 가장 큰 고유 값에 해당하는 고유 벡터 에 투영하는 것에 해당하는 입니다 . $\sum_{i=1}^n \lambda_i \gamma_i$ $\gamma_i \leq 1$ $\sum_{i=1}^n \gamma_i = k$ $\sum_{i=1}^k \lambda_i$ $k$

— sjm.majewski
소스

2

+1 아주 좋은 답변입니다! 아직 완전히 읽지 않았지만 당신의 대답은 내가 찾고있는 종류입니다. 모든 단계 설명 =)

— jjepsuomi

9

기본적인 선형 대수학을 아는 Layman을 보여 주면 수학 학부생들에게 보여 드리겠습니다.

— probabilityislogic

선형 대수에서 우리는이 간단한 경우 에서 의 투영 이 $x_i'$ $\alpha v$ $\langle x_i, v\rangle/\|v\|^2$ (5 번째 단락) 임을 알고 있습니다. 가 아니어야합니다. ? 다시 말해, 스칼라 프로젝션?

⟨ x_{i}, v ⟩ / ‖ v ‖

$\langle x_i, v\rangle/\|v\|$

— Antoni Parellada 2018 년

1

나는 이것이 내가 본 PCA에 대한 최고의 설명이라고 생각한다. 감사합니다.

— Nimitz14

1

이것이 고유 벡터가 왜 분산을 최대화 하는지 보여주는 가장 좋아하는 설명입니다 .

— Romwell

47

좋아, 나는 이것을 시도 할 것이다. 몇 달 전에 나는 비 통계 학자에게 설명 할 수있는 직관적 인 설명을 찾기 위해 많은 양의 문헌을 조사했다. Lagrange multipliers를 사용하는 파생물이 가장 직관적이라는 것을 알았습니다.

곤충에 대해 30 회 측정 한 수치 데이터가 있다고 가정 해 봅시다. 버그는 이러한 차원 중 일부에서 유전자형이 다르고 물리적 특성이 약간 다르지만 차원이 높은 데이터를 사용하면 어떤 곤충이 어떤 그룹에 속하는지 알기가 어렵습니다.

PCA는 다음을 통해 차원을 줄이는 기술입니다.

원래 변수의 선형 조합을 취합니다.
각 선형 조합은 가능한 데이터의 가장 큰 차이를 설명합니다.
각 선형 조합은 다른 선형 조합과 관련이 없습니다.

또는 수학 용어로 :

용 (j 번째 구성 요소 선형 결합) $Y_j = a_j' x$
들면 , (제 1 요소는보다 변형을 설명) $k > j$ $V(Y_k) < V(Y_j)$
$a_k' a_j = 0$ (직교성)

이러한 제약 조건을 만족하는 선형 조합을 찾으면 고유 값이됩니다. 왜?

전체 파생을위한 다변량 데이터 분석 소개 (p. 50) 책을 확인하는 것이 좋지만 기본 아이디어는 계수 a에 대해 a'a = 1 (제한을 방지하기 위해)으로 제한되는 연속적인 최적화 문제 (분산 최대화)입니다. 분산이 무한 할 수있는 경우) 계수가 직교하도록 제한됩니다.

이는 Lagrange 멀티 플라이어를 통한 최적화로 이어지며 고유 값이 사용되는 이유를 보여줍니다. 나는 그것을 입력하기에는 너무 게으르다 (죄송합니다!), 그러나이 PDF 는이 시점부터 증거를 잘 통과합니다.

나는 할머니에게 이것을 설명하려고하지 않았지만, 치수 축소 기술에 대해 일반적으로 이야기해야한다면,이 사소한 투영 예 (PCA가 아님)를 가리킬 것입니다. 매우 복잡한 Calder 모바일이 있다고 가정하십시오. 서로 가까이있는 3 차원 공간의 일부 점은 그렇지 않습니다. 이 모바일을 천장에 걸고 한 각도에서 빛을 비추면 더 낮은 차원의 평면 (2 차원 벽)으로 투영됩니다. 이제이 이동 장치가 주로 한 방향으로 넓지 만 다른 방향으로 마른 경우에는 유용성이 다른 투영을 얻기 위해 회전 할 수 있습니다. 직관적으로 벽에 투영 된 1 차원의 스키니 모양은 그다지 유용하지 않습니다. 모든 그림자가 겹치며 많은 정보를 제공하지 않습니다. 그러나 빛이 넓은쪽으로 비추도록 회전 시키면 축소 된 차원 데이터를보다 잘 파악할 수 있습니다. 포인트가 더 넓어집니다. 이것은 종종 우리가 원하는 것입니다. 나는 할머니가 그것을 이해할 수 있다고 생각합니다 :-)

— 빈스
소스

6

그것은 매우 평신도입니다 ;-)

2

약간 수학이지만, 무언가를 이해하는 가장 좋은 방법은 그것을 이끌어내는 것입니다.

— Vince

29

당신은 예외적으로 잘 교육받은 할머니가 있습니다 :-).

— whuber

7

난 광은 3 차원 구조에 빛나는 설명하고자

— 닐 맥기

(+1) 모두가 훌륭한 대답이지만 이것이 내가주는 것이기도합니다.

— Digio

37

비 기술적 노력을 시도하는 중 ... 다변량 데이터, 다차원 점 구름이 있다고 상상해보십시오. 실제로 (a) 구름을 중심으로, 즉 원점을 다차원 평균으로두면 공분산 행렬을 계산할 때 좌표계 축이 구름 중심을 가로 지르고 (b) 구름 모양에 대한 정보를 암호화합니다. 분산 공분산 항목을 사용하여 공간에서 방향을 지정하는 방법. 따라서 전체 데이터 형태에 대한 대부분의 중요한 정보는 공분산 행렬에 저장됩니다.

그런 다음 해당 행렬의 고유 분해를 수행하고 고유 값 목록과 해당하는 고유 벡터 수를 얻습니다. 이제 첫 번째 주요 구성 요소 는 원점을 통과하는 축으로 표시 될 수 있고 구름의 최대 분산 방향 (두께)을 따라 방향을 지정할 수있는 새로운 잠재 변수입니다. 이 축을 따른 분산, 즉 그 위에있는 모든 점의 좌표 분산 은첫 번째 고유 값과 원래 축 (변수)을 참조하는 공간에서 축의 방향은 첫 번째 고유 벡터에 의해 정의됩니다. 항목은 해당 고유 축과 그 사이의 코사인입니다. 제 1 성분상의 상기 언급 된 데이터 포인트의 좌표는 제 1 주요 성분 값 또는 성분 스코어이고; 그것들은 (중심) 데이터 매트릭스와 고유 벡터의 곱으로 계산됩니다.

1 차 홍보 "후" 구성 요소는 그것이 설명 된 모든 분산으로 구름에서 "제거 된"것으로 측정되었으며, 구름의 차원은 1 씩 떨어집니다. 다음으로 두 번째 고유 값과 두 번째 고유 벡터 인 두 번째 PR로 모든 것이 반복됩니다. 컴포넌트를 기록한 다음 "제거"합니다. 기타.

다시 한번, 고유 벡터는 주성분의 방향 코사인이고, 고유 값은 주성분의 크기 (분산)입니다. 모든 고유 값의 합은 분산-공분산 행렬의 대각선에있는 분산의 합과 같습니다. 고유 값에 저장된 "magnitudinal"정보를 고유 벡터로 전송하여 저장된 "orientational"정보에 추가하면 주성분 로딩 을 얻게됩니다 . 이러한 하중은 두 가지 유형의 정보를 모두 가지고 있기 때문에 원래 변수와 주성분 사이의 공분산입니다.

추후 PS 저는 특히 고유 벡터 와 부하 의 용어 차이를 두 배로 강조하고 싶습니다 . 많은 사람들과 일부 패키지 (일부를 포함하여 R)는 두 용어를 상호 교환 적으로 사용합니다. 개체와 그 의미가 다르기 때문에 나쁜 습관입니다. 고유 벡터는 방향 코사인, PCA에 해당하는 직교 "회전"각도입니다. 하중은 회전 된 데이터의 변동성 또는 크기에 대한 정보가 접종 된 고유 벡터입니다. 하중은 성분과 변수 사이의 연관 계수이며 변수 사이에서 계산 된 연관 계수 (공분산, 상관 또는 다른 스칼라 곱) 와 직접 비교됩니다.PCA를 기반으로합니다. 고유 벡터와 하중은 성분에 의한 변수를 예측하는 데 회귀 계수를 제공한다는 점에서 비슷합니다 (반대의 경우도 아닙니다! $^1$ ). 고유 벡터는 원시 성분 점수로 변수를 예측하는 계수입니다. 하중은 척도 화 (정규화 된) 성분 점수로 변수를 예측하는 계수입니다 (물론 하중이 변동성에 대한 정보를 석출했기 때문에 사용 된 성분이 박탈되어야 함). 고유 벡터와 하중을 혼합하지 않는 또 다른 이유는 PCA 이외의 다른 차원 축소 기법 (예 : 일부 형태의 요인 분석)이 고유 벡터를 무시하고 직접 하중을 계산하기 때문입니다. 고유 벡터는 고유 분해 또는 특이 값 분해의 곱입니다. 일부 형태의 요인 분석에서는 이러한 분해를 사용하지 않고 다른 방식으로 하중에 도달합니다. 마지막으로, 성분이나 요인을 해석하는 고유 벡터가 아닌 로딩입니다 (해석해야하는 경우). 로드는 구성 요소가 변수에 기여하는 것에 관한 것입니다. PCA (또는 요인 분석)에서 구성 요소 / 요소는 그 자체가 아니라 변수에로드됩니다. 종합적인 PCA 결과에서 다음과 같이 고유 벡터와 로딩을 모두보고해야합니다.여기 또는 여기에 .

로딩 대 고유 벡터에 대해서도 참조하십시오 .

$^1$ PCA의 고유 벡터 행렬은 직교 정규이고 역수는 전치이므로, 동일한 고유 벡터도 변수에 의해 성분을 역 예측하는 계수라고 할 수 있습니다. 그러나 로딩에는 그렇지 않습니다.

— ttnphns
소스

@amoeba, 나는 주장하지 않으며 익숙한 용어를 사용할 수 있습니다. 나는 왜 "loadings"와 "eigenvectors"라는 용어가 별개로 유지하는 것이 더 낫다고 생각하는지 분명히 설명했다. 저는 Harman과 같은 고전적인 전통을 따릅니다. 현대 요인 분석, 나는 전통을 올바르게 기억한다면.

— ttnphns

(계속) 어쨌든, "부하"라는 용어는 실제로 매우 모호하지만, 예를 들어 판별 분석과 같은 다른 다변량 분석에서 "고유 벡터"와 혼용되지 않는 것은 당연합니다. 다시 한 번 말하지만 PCA 로딩에서 1) 변동 크기에 대한 정보를 통합합니다. 2) 공분산 / 상관 관계이므로 해석에 사용됩니다. 고유 벡터 값-아닙니다.

— ttnphns

2

+1 PCA 및 기타 관련 문제에 대한 귀하의 게시물을 읽었으며 많은 것을 배웠습니다.

— Antoni Parellada 2016 년

29

완전히 수학이 아닌 대답 :

많은 주제에 변수가 많고 가능한 한 적은 정보를 잃어도 동일한 주제에 대해 더 적은 수의 변수로 변수를 줄이려면 PCA가이를 수행하는 하나의 도구입니다.

FA는 잠복 변수와 관련이 있다고 여겨지는 더 많은 수의 관측 변수에서 적은 수의 잠복 변수를 복구하려고 시도한다는 점에서 요인 분석과 다릅니다.

— 피터 플 로움
소스

안녕 피터! 반갑습니다. 이것은 정말 좋고 간단하며 수학 대답이 없습니다.

— JD Long

3

아무도 언급하지 않는 FA, 그리고 일부 사람들의 설명이 혼합되어있는 FA에 대해 +1했습니다.

— gung

PCA와 FA의 목표에는 차이가없는 것 같습니다. 둘 다 회전하는 것을 목표로하여 가장 중요한 요소 (잠재 벡터 또는 고유 치수 또는 특이 벡터 등)를 볼 수 있습니다. 그러나 FA는 알고리즘이 아니라 서로 정의되지 않은 목표 (다양하고 상호 일관성이 없으므로 서로 다른 변종이 서로 다른 것을 '최적화'하는 것)를 가진 관련 기술 (서로 및 SVD 및 PCA에 대한) 계열로 보입니다.

— David MW Powers

PCA가 요인 분석을 수행 할 수있는 많은 방법 중 하나라고 말하는 것이 옳습니까?

— abalter

이 영역의 용어는 불명확합니다.

— Peter Flom

29

2D로 수학하는 것이 가장 쉽습니다.

모든 행렬은 선형 변환에 해당합니다. 평면에서 기억에 남는 그림을 가져 와서 선형 변형으로 해당 그림이 어떻게 왜곡되는지 확인하여 선형 변형을 시각화 할 수 있습니다.

선형 변환 (그림 : Flanigan & Kazdan )

고유 벡터 는 동일한 벡터입니다. 변환 후 예전과 같은 방향을 가리 킵니다. (파란색은 동일하게 유지되므로 방향은의 고유 벡터입니다.) $\tt{shear}$
고유 값 은 동일 벡터의 성장 또는 축소 정도입니다. (파란색은 같은 크기를 유지하므로 고유 값은 됩니다.) $\times 1$
PCA 는 축을 회전시켜 데이터와 더 잘 일치하도록합니다. _{(출처 :}_weigend.com₎ PCA는 공분산 행렬의 고유 벡터를 사용하여 데이터 회전 방법을 알아냅니다. 때문에 회전 선형 변환의 일종이며 , 새로운 치수 등 오래된 것들의 합이 될 것이다 .
$\langle 1 \rangle = 23\% \cdot [1] + 46\% \cdot [2] + 39\% \cdot [3]$

실제 데이터를 다루는 사람들이 고유 벡터와 선형 변환에 관심을 갖는 이유는 서로 다른 상황에서 "선형"( ) 정말 흥미로운 것들을 다룰 수 있습니다. 예를 들어 와 에 새로운 의미가 주어 지거나 와 가 흥미로운 필드에서 왔거나 와 가 흥미로운 공간에서 나오는 경우 해당 속성의 의미를 생각해보십시오 . 예를 들면 다음과 같습니다. $f(a\cdot x+b\cdot y)=a\cdot f(x)+b \cdot f(y)$ $+$ $\cdot$ $a$ $b$ $x$ $y$

PCA 자체는 통계 전문가에게 가장 친숙한 또 다른 예입니다. Freya와 같은 다른 답변 중 일부는 PCA의 실제 응용 프로그램 을 제공합니다.

${}$

†

$\dagger$ "회전"만큼 단순한 것이 추천 시스템 용 제품을 정렬하는 것과 같이 다른 영역에서 많은 일을 할 수 있다는 것이 놀랍습니다. 지정 학적 갈등을 설명하는그러나 물리학에 대해 더 나은 기초를 선택하는 경우 (예 : 축을 아닌 동작 방향으로 설정 는 계산할 수없는 방정식을 간단한 방정식으로 변경합니다.

\overset{similar how?}{⟵ - - - - - ⟶}

$\overset{\text{similar how?}}{\longleftarrow\!\!\!-\!\!-\!\!-\!\!-\!\!-\!\!\!\longrightarrow}$

x

$\mathrm{x}$

42.8 % [x] \oplus 57.2 % [y]

$42.8\% [\mathrm{x}] \oplus 57.2\% [\mathrm{y}]$

— 동형
소스

2

실제로 회전은 선형 적이므로 비 기하학적 데이터의 진행 상황을 설명하는 편리한 방법입니다. 우연의 일치는 데카르트 / 유클리드 공간과 중앙 한계 정리 / 가우시안의 이차 특성과 관련이 있습니다. 즉. 시그마는 직교 치수와 같이 2 차적으로 합쳐집니다. 여기서 ND 회전 / 직교 용어는 2D 및 3D 공간과 유사합니다.

— David MW Powers

@DavidMWPowers 재미있는. 선형 대수 관점에서의 회전에 대해 생각하고 있습니다.

— isomorphismes

27

이 스레드에서 JD Long의 훌륭한 게시물을 읽은 후 간단한 예제와 PCA를 생성하는 데 필요한 R 코드를 찾은 다음 원래 데이터로 돌아갑니다. 그것은 나에게 직접적인 기하학적 직감을 부여했고, 내가 얻은 것을 공유하고 싶습니다. 데이터 세트와 코드는 직접 복사하여 R 형식으로 Github에 붙여 넣을 수 있습니다 .

여기 에서 반도체에서 온라인으로 찾은 데이터 세트를 사용했으며 플로팅을 용이하게하기 위해 "원자 번호"와 "용융점"의 2 차원으로 잘라 냈습니다.

주의 사항은이 아이디어가 전적으로 계산 과정을 설명하는 것입니다. PCA는 두 개 이상의 변수를 몇 가지 파생 주성분으로 줄이거 나 여러 피쳐의 경우 공선 성을 식별하는 데 사용됩니다. 따라서 두 변수의 경우에는 많은 응용 프로그램을 찾지 못하고 @amoeba가 지적한 상관 행렬의 고유 벡터를 계산할 필요도 없습니다.

또한 개별 지점을 추적하는 작업을 쉽게하기 위해 관측 값을 44에서 15로 줄였습니다. 최종 결과는 골격 데이터 프레임 ( dat1) 이었습니다 .

compounds   atomic.no      melting.point
AIN         10             498.0
AIP         14             625.0
AIAs        23             1011.5
...         ...            ...

"화합물"열은 반도체의 화학적 구성을 나타내며 행 이름의 역할을합니다.

이것은 다음과 같이 재현 할 수 있습니다 (R 콘솔에서 복사하여 붙여 넣기 준비).

dat              <- read.csv(url("http://rinterested.github.io/datasets/semiconductors"))
colnames(dat)[2] <- "atomic.no"
dat1             <- subset(dat[1:15,1:3])
row.names(dat1)  <- dat1$compounds
dat1             <- dat1[,-1]

그런 다음 데이터의 규모를 조정했습니다.

X <- apply(dat1, 2, function(x) (x - mean(x)) / sd(x))
# This centers data points around the mean and standardizes by dividing by SD.
# It is the equivalent to `X <- scale(dat1, center = T, scale = T)`

선형 대수 단계는 다음과 같습니다.

C <- cov(X)                                           # Covariance matrix (centered data)

$\begin{bmatrix} &\text{at_no}&\text{melt_p}\\ \text{at_no}&1&0.296\\ \text{melt_p}&0.296&1 \end{bmatrix}$

상관 함수 cor(dat1)는 스케일링되지 않은 데이터 cov(X)에 대해 스케일링 된 데이터에 대한 함수와 동일한 출력을 제공합니다 .

lambda        <- eigen(C)$values                      # Eigenvalues
lambda_matrix <- diag(2)*eigen(C)$values              # Eigenvalues matrix

$\begin{bmatrix} &\color{purple}{\lambda_{\text{PC1}}}&\color{orange}{\lambda_{\text{PC2}}}\\ &1.296422& 0\\ &0&0.7035783 \end{bmatrix}$

e_vectors     <- eigen(C)$vectors                     # Eigenvectors

$\frac{1}{\sqrt{2}}\begin{bmatrix} &\color{purple}{\text{PC1}}&\color{orange}{\text{PC2}}\\ &1&\,\,\,\,\,1\\ &1&-1 \end{bmatrix}$

첫 번째 고유 벡터는 처음에 로 반환되므로 통해 내장 수식과 일치 하도록 로 변경합니다. $\sim \small [-0.7,-0.7]$ $\small [0.7, 0.7]$

e_vectors[,1] = - e_vectors[,1]; colnames(e_vectors) <- c("PC1","PC2")

결과 고유 값은 및 입니다. 최소한의 조건에서이 결과는 포함 할 고유 벡터를 결정하는 데 도움이되었습니다 (최대 고유 값). 예를 들어, 첫 번째 고유 값의 상대적 기여는 : 이며 이는 데이터 변동성의 를 합니다. 두 번째 고유 벡터 방향의 변동성은 입니다. 이것은 일반적으로 고유 값의 값을 나타내는 scree plot에 표시됩니다. $\small 1.2964217$ $\small 0.7035783$ $\small 64.8\%$ eigen(C)$values[1]/sum(eigen(C)$values) * 100 $\sim\small 65\%$ $35.2\%$

이 장난감 데이터 세트 예제의 작은 크기를 고려하여 두 고유 벡터를 모두 포함 할 것입니다. 고유 벡터 중 하나를 제외하면 PCA의 개념이라는 차원 축소가 발생한다는 것을 이해합니다.

스코어 행렬 의 행렬 곱셈으로서 결정 하였다 스케일링 된 데이터 ( X바이) 의 고유 벡터 (또는 "회전")의 매트릭스 :

score_matrix <-  X %*% e_vectors    
# Identical to the often found operation: t(t(e_vectors) %*% t(X))

이 개념 은 각 고유 벡터 의 행에 의해 가중치가 부여 된 중심 (및이 경우 스케일링 된) 데이터 의 각 항목 (이 경우 행 / 주제 / 관찰 / 초전도체)의 선형 조합을 수반 하므로 점수 행렬, 우리는 데이터의 각 변수 (열)에서 기여를 찾을 것입니다 (전체 ), 그러나 해당 고유 벡터 만 계산에 참여했을 것입니다 (즉, 첫 번째 고유 벡터 는 다음과 같이 (주요 구성 요소 1) 및 를 기여합니다 .X $[0.7, 0.7]^{T}$ $\text{PC}\,1$ $[0.7, -0.7]^{T}$ $\text{PC}\,2$

따라서 각 고유 벡터는 각 변수에 다르게 영향을 미치며 이는 PCA의 "로드"에 반영됩니다. 우리의 경우, 두 번째 고유 벡터의 두 번째 성분에있는 음의 부호 는 PC2를 생성하는 선형 조합의 녹는 점 값의 부호를 바꾸는 반면 첫 번째 고유 벡터의 효과는 지속적으로 양의 값을 갖습니다. $[0.7, - 0.7]$

고유 벡터의 크기는 로 조정됩니다 . $1$

> apply(e_vectors, 2, function(x) sum(x^2))
PC1 PC2 
  1   1

반면 ( loading )은 고유 값에 의해 스케일링 된 고유 벡터입니다 (아래에 표시된 내장 R 함수의 혼동되는 용어에도 불구하고). 결과적으로 하중은 다음과 같이 계산할 수 있습니다.

> e_vectors          %*% lambda_matrix
          [,1]      [,2]
[1,] 0.9167086  0.497505
[2,] 0.9167086 -0.497505

> prcomp(X)$rotation %*% diag(princomp(covmat = C)$sd^2)
                   [,1]      [,2]
atomic.no     0.9167086  0.497505
melting.point 0.9167086 -0.497505

회전 된 데이터 클라우드 (점수 플롯)는 고유 값과 동일한 각 구성 요소 (PC)를 따라 분산이 있습니다.

> apply(score_matrix, 2, function(x) var(x))
       PC1        PC2 
53829.7896   110.8414 
> lambda
[1] 53829.7896   110.8414

내장 함수를 사용하여 결과를 복제 할 수 있습니다.

# For the SCORE MATRIX:
  prcomp(X)$x
# or...
  princomp(X)$scores # The signs of the PC 1 column will be reversed.

# and for EIGENVECTOR MATRIX:
  prcomp(X)$rotation
# or...
  princomp(X)$loadings

# and for EIGENVALUES:
  prcomp(X)$sdev^2
# or...
  princomp(covmat = C)$sd^2

또는 특이 값 분해 ( ) 방법을 적용하여 PCA를 수동으로 계산할 수 있습니다. 실제로 이것은에서 사용되는 방법입니다 . 단계는 다음과 같이 철자가 될 수 있습니다. $\text{U}\Sigma \text{V}^\text{T}$ prcomp()

svd_scaled_dat <-svd(scale(dat1))
eigen_vectors <- svd_scaled_dat$v
eigen_values <- (svd_scaled_dat$d/sqrt(nrow(dat1) - 1))^2
scores<-scale(dat1) %*% eigen_vectors

결과는 다음과 같습니다. 먼저 개별 점에서 첫 번째 고유 벡터까지의 거리와 두 번째 플롯에서 두 번째 고유 벡터까지의 직교 거리를 나타냅니다.

대신 점수 행렬 (PC1 및 PC2)의 값을 더 이상 "melting.point"및 "atomic.no"로 플롯하지 않고 실제로 고유 벡터를 기준으로 한 점 좌표의 기준 변경 인 경우 이러한 거리는 다음과 같습니다. 보존되지만 xy 축에 수직으로 자연스럽게 나타납니다.

비결은 이제 원래 데이터 를 복구하는 것이 었습니다 . 점들은 고유 벡터에 의한 간단한 행렬 곱셈을 통해 변형되었습니다. 이제 데이터 포인트의 위치에 현저한 변화가있는 고유 벡터 행렬의 역수를 곱하여 데이터를 다시 회전 시켰습니다 . 예를 들어, 왼쪽 상단 사분면 (아래 왼쪽 그림의 검은 색 원)에서 분홍색 점 "GaN"이 바뀌고 왼쪽 하단 사분면의 초기 위치 (아래 오른쪽 그림의 검은 색 원)로 돌아갑니다.

이제 우리는이 "회전 방지 된"행렬에서 원래 데이터를 복원했습니다.

PCA에서 데이터의 회전 좌표 변경을 넘어서서 결과를 해석해야하며,이 프로세스 biplot는 데이터 포인트가 새로운 고유 벡터 좌표와 관련하여 그려지고 원래 변수가 다음과 같이 겹쳐 지는 경향이 있습니다. 벡터. (따르는 그래프의 좌측으로) ( "XY 축 = 고유 벡터와 스코어") 위의 회전 그래프의 두 번째 행의 그래프의 점의 위치에서 동등한 흥미 롭다 및 biplot받는 ( 권리):

빨간 화살표로 원래의 변수는 중첩의 해석에 대한 경로를 제공하는 PC1양으로 (또는 양의 상관 관계)와 방향 벡터로 atomic no하고 melting point; 그리고 고유 벡터의 값과 일치하면서, 값의 PC2증가 atomic no와 함께 음의 상관 관계 를 갖는 성분으로서 melting point:

PCA$rotation
                    PC1        PC2
atomic.no     0.7071068  0.7071068
melting.point 0.7071068 -0.7071068

Victor Powell 의이 대화 형 자습서 는 데이터 클라우드가 수정 될 때 고유 벡터의 변경 사항에 대한 즉각적인 피드백을 제공합니다.

— 안토니 파렐 라다
소스

1

노력과 특히 애니메이션에 +1! 그러나 두 변수의 상관 행렬에 대한 PCA는 두 가지 변수의 모든 상관 행렬 이 동일한 고유 벡터를 갖기 때문에 약간 특별한 경우임을 명심 해야합니다 . 그 중 하나는 항상 [0.7 0.7] (0.7은 1 / sqrt 임) (2)). 공분산 행렬 또는 더 큰 차원의 상관 행렬의 경우에는 해당되지 않습니다.

— amoeba

14

PCA를 많이 사용한 (그리고 몇몇 사람들에게도 설명하려고 시도한) 누군가 내 신경 과학 분야의 예가 여기 있습니다.

우리는 사람의 두피에서 녹음 할 때 64 전극으로 수행합니다. 따라서 실제로 두피에 의해 주어진 전압을 나타내는 64 개의 숫자가 목록에 있습니다. 이제 우리는 마이크로 초 정밀도로 기록하기 때문에 1 시간의 실험 (주로 4 시간)이 있다면 각 전극에서 전압이 기록 된 1e6 * 60 ^ 2 == 3,600,000,000 개의 시점을 얻습니다. 3,600,000,000 x 64 행렬이 있습니다. PCA의 주요 가정은 변수가 서로 연관되어 있다는 것이므로,이 말도 안되는 양의 데이터를 다루기 쉬운 양으로 줄이는 훌륭한 기술입니다. 이미 여러 번 언급했듯이 고유 값은 변수 (열)로 설명 된 분산의 양을 나타냅니다. 이 경우 고유 값은 특정 전극에 의해 기여되는 특정 시점에서의 전압 변동을 나타냅니다. 이제 우리는 "아, 전극x그 시점 y에서 가장 많은 변화가 일어나기 때문에 추가 분석을 위해 초점을 맞춰야합니다. "

— 필립 클라우드
소스

12

나는 나에게 그 이상의 개념을 설명해 준 속담 한 할머니이기 때문에 이것에 대답하기에 나쁜 사람 일지 모르지만 여기에 간다.

인구가 있다고 가정합니다. 인구의 많은 부분이 심장 마비로 사망하고 있습니다. 당신은 심장 마비의 원인을 알아 내려고 노력하고 있습니다.

키와 몸무게의 두 가지 데이터가 있습니다.

자, 체중과 심장 마비 사이에 약간의 관계가 있다는 것이 분명하지만 상관 관계는 그리 강력하지 않습니다. 많은 심장 마비가있는 무거운 사람들이 있지만 그렇지 않은 사람들도 있습니다.

자, 당신은 PCA를하고, 그것은 당신이 키로 나눈 몸무게 ( '체질량')가 심장 발작을 훨씬 더 잘 예측할 수 있다는 것입니다. 왜냐하면 "실제"는 심장 마비를 유발하는 체질량.

기본적으로 PCA는 많은 것을 측정하고 있기 때문에 실제로 주요 구성 요소인지 또는 측정하지 않은 더 깊은 기본 구성 요소가 있는지 알지 못하기 때문에 PCA를 수행합니다.

[완전히 벗어난 경우 자유롭게 편집하십시오. 나는 이것보다 더 깊이 개념을 이해하지 못한다].

— Joel Spolsky
소스

1

통계 사이트 @Joel에 오신 것을 환영합니다! 당신이 기회를 얻을 경우, 당신은 또한 우리의 제안 분산 StackExchange 데이터 분석 프로젝트에 대한 논의에 기여할 수 있습니다 stats.stackexchange.com/questions/2512/...를 .

— Shane

9

훌륭한 예이지만 기술적으로 PCA는 선형 설명 만 찾을 수 있기 때문에 신체 질량 설명을 찾을 수 없습니다. 즉, 원래 변수의 가중치 합계입니다. 그러나 입력 변수의 로그를 가져 오면 비율이 달라지고 올바른 설명이면 PCA가이를 찾을 수 있습니다.

— David MW Powers

10

다음은 할머니를위한 것입니다 :

우리 마을에는 북쪽과 남쪽으로가는 거리가 있으며, 일부는 동쪽과 서쪽으로 가고, 일부는 북서쪽과 남동쪽으로, 일부는 NE에서 SW로 향합니다. 어느 날 한 남자가 모든 거리의 모든 교통량을 측정 한 결과, 가장 많은 교통량이 북서쪽에서 남동쪽으로 대각선으로 가고 있고, 두 번째로 큰 것은이 북동쪽에서 남서쪽으로가는 것에 수직이며 나머지는 상당히 작습니다. 그래서 그는 큰 정사각형을 그리고 왼쪽에서 오른쪽으로 큰 선을 긋고 그것을 NW에서 SE라고 말한 다음 다른 선을 가운데로 위 아래로 수직으로 그립니다. 그는 이것이 트래픽의 두 번째로 혼잡 한 방향이라고 말합니다 (NE에서 SW로). 나머지는 작으므로 무시할 수 있습니다.

왼쪽 오른쪽 선은 첫 번째 고유 벡터이고 위쪽 아래 선은 두 번째 고유 벡터입니다. 왼쪽과 오른쪽으로가는 총 차량 수가 첫 번째 고유 값이고, 위아래로 올라가는 차량이 두 번째 고유 값입니다.

— 바자 밥
소스

1

이 비유는 시험 중에 분해되는 것으로 보인다. 가장 큰 교통 방향과 두 번째로 큰 교통 방향이 직교가 아닌 경우 어떻게합니까? 그러한 경우 귀하의 비유가 PCA를 이해하는 데 어떻게 도움이됩니까?

— whuber

할머니가 직교의 의미를 이해한다고 생각하십니까? 예, 약간의 결함이 있지만 시작입니다. 나는 여기에 너무 많은 답변이 있다는 것이 훌륭하다고 생각합니다.

— BajaBob

2

"할머니"가 게시물을 이해하는지 여부에 관계없이 명확하고 정확해야합니다. 귀하의 비유는 이러한 목표 중 하나를 달성하지 못하는 것 같습니다. 그 비유를 이해하지 못했기 때문일 수 있습니다. PCA가 무엇인지 또는 무엇인지에 연결할 수 없습니다. 어쩌면 당신은 다른 독자들이 나처럼 신비하게되지 않도록 비유가 어떻게 작동하는지 분명히 알 수있을 것입니다.

— whuber

이들이 직교가 아니라는 것은 PCA가 아닌 ICA 또는 FA가 필요하다는 것을 의미합니다. 장애가있는 선박을 비스듬히 보여줄 때 할머니가 스타 트렉을보고 있었다면 (PCA는 척도와 시야와 관련된 기준면 (은하 평면 또는 선박의 축)을 회복하는 경향이 있습니다).

— David MW Powers

-1. 나는이 비유가 작동하지 않는다는 @whuber에 동의합니다. 여기에서 데이터는 무엇이고,이 "고유 벡터"는 어떤 공분산 행렬입니까? 나는 그것을 전혀 이해하지 못한다.

— amoeba

10

이 답변은 직관적이고 수학적으로 해석되지 않습니다.

PCA는 고차원 포인트 클라우드 내에서 일련의 직교 벡터를 제공합니다. 벡터의 순서는 모든 점을 벡터에 투영 한 후 전달되는 정보에 의해 결정됩니다.

다른 말로 : 첫 번째 주요 구성 요소 벡터는 모든 점을 벡터에 투영 한 후 점 구름에 대해 가장 많이 알려줍니다. 이것은 물론 직관적 인 해석입니다.

이 타원체를보십시오 (3D 모델의 링크를 따르십시오) .

여기에 이미지 설명을 입력하십시오

타원체 점의 점이 투영 될 1 차원 하위 공간을 형성하는 하나의 벡터를 선택해야하는 경우. 원본 세트에 대한 대부분의 정보를 3 차원으로 전달하기 때문에 어떤 것을 선택 하시겠습니까?

나는 가장 긴 축을 따라 빨간색을 추측합니다. 그리고 이것은 실제로 계산 된 첫 번째 주성분입니다! 다음 중 하나-다음으로 긴 축을 따라 파란색을 선택합니다.

일반적으로 고차원 공간에서 2 차원 평면 또는 3 차원 공간 으로 점 세트를 투영하려고 합니다 .

여기에 이미지 설명을 입력하십시오

http://www.joyofdata.de/blog/illustration-of-principal-component-analysis-pca/

— 라파엘
소스

10

PCA에 대한 직관적 인 이해를 제공하기 위해 많은 예제가 제공되었지만, 그 사실은 처음에는 이해하기가 거의 어려울 수 있습니다.

"PCA에 대해 다른 분야의 다른 모든 예가 공통적으로 가지고있는 한 가지는 무엇입니까?"

내가 직관적으로 이해하는 데 도움이 된 것은 몇 가지 수학 평행선이었습니다. 수학은 할머니에게 설명하는 데 도움이되지 않지만 수학은 쉬운 부분이기 때문에 ...

정규화 문제를 생각해보십시오.

| | X B - Y | | = 0

$|| XB - Y || = 0$

$Y$ $Y$

$Y$ $Y$ $X$ $k$ $B$ $Y$ $X$ $B$ $k$ $S$ $V$ $S$ $V^\mathrm{T}$

$A$ $A$

— bill_e
소스

9

수학 답변은 다음과 같습니다. 첫 번째 주요 구성 요소는 데이터의 가장 긴 차원입니다. 그것을보고 물어보십시오 : 데이터가 가장 넓은 곳은 어디입니까? 이것이 첫 번째 구성 요소입니다. 다음 구성 요소는 수직입니다. 따라서 데이터 시가에는 길이와 너비가 있습니다. 길쭉한 것이면 말이됩니다.

— 피터 왁스 맨
소스

6

불행하게도,이 답변의 정확성은 모호한 표현 "가장 긴"이 어떻게 해석되는지에 달려 있습니다. 직경 과 같은 많은 자연스럽고 관련성있는 해석 은 잘못 될 것입니다.

— whuber

PCA는 실제로 치수 / 크기를 측정하는 다양한 유형의 자연적인 방식으로 잘 작동합니다. 공분산 행렬을 임의의 방향으로 "치수"를 측정하기위한 행렬로 교체하면됩니다 (행렬은 양의 정의 또는 대칭이어야 함). 이것은 다른 정렬 연산자에 대해 QuickSort가 작동하는 것과 같지만 다른 결과를 얻을 수 있습니다. 다른 주문 연산자.

— James LI

9

주요 구성 요소를 이해하는 방법은 다음과 같습니다. 여러 변수 (높이, 무게, 나이, 온도, 파장, 생존률 등)가있는 데이터를 3 차원으로 표시하여 관련성을 표시 할 수 있습니다.

이제 "3D 데이터"를 이해하려면이 3D 데이터의 어떤 2D 평면 (단면)에 주어진 변수 세트에 대한 가장 많은 정보가 포함되어 있는지 알고 싶을 것입니다. 이 2D 평면은 주요 변수이며 각 변수의 비율을 포함합니다.

주요 구성 요소를 원래 변수의 복합 특성을 갖는 변수 자체로 생각하십시오 (이 새로운 변수는 부품 무게, 부품 높이, 부품 수명 등으로 설명 될 수 있음). 하나의 주성분 (X)을 다른 주성분 (Y)에 대해 플롯 할 때는 원래 변수 간의 상관 관계를 기하학적으로 설명 할 수있는 2D 맵을 작성하는 것입니다. 이제 유용한 부분 : 비교중인 각 주제 (관측)가 각 변수의 값과 연관되어 있으므로이 XY 맵의 어딘가에 주제 (관측)도 있습니다. 이들의 위치는 각 기본 변수의 상대적 기여도를 기반으로합니다 (예 : 하나의 관측치가 나이와 온도에 크게 영향을받을 수있는 반면 다른 관측치는 키와 체중에 의해 더 영향을받을 수 있습니다).

— 예레미아 잭슨
소스

8

나는 수학이 아닌 반응과 두 번째 부분에서 수학에 대한 동기 부여에 대한 더 자세한 조감도를 제공 할 것입니다.

비 마티 :

수학이 아닌 설명은 PCA가 데이터가 가장 많은 방향을 갖는 방향을 볼 수있게하여 고차원 데이터를 돕는다는 것입니다. 이러한 방향은 주요 구성 요소 입니다. 이 정보를 얻은 후에는 경우에 따라 주 구성 요소를 의미있는 변수로 사용하기로 결정하고 주 구성 요소를 가장 분산 된 상태로만 설명함으로써 데이터의 차원을 크게 줄일 수 있습니다 ( 설명력 ).

예를 들어, 30 개의 질문이있는 정치 설문 조사 설문지를 제공한다고 가정하면, 각각 1 ( 강하게 동의하지 않음 )에서 5 ( 강하게 동의 함 ) 까지 의 응답을받을 수 있습니다 . 많은 반응을 얻었으며 이제 30 차원 데이터를 가지고 있으며 머리 나 꼬리를 만들 수 없습니다. 그런 다음 필사적으로 PCA를 실행하고 분산의 90 %가 한 방향에서 왔으며 해당 방향이 어떤 축과도 일치하지 않는 것을 발견했습니다. 데이터를 추가로 조사한 후에는이 새로운 하이브리드 축이 정치적 좌-우 스펙트럼, 즉 민주당 / 공화당 스펙트럼에 해당한다고 결론을 내리고 데이터에서 더 미묘한 측면을 살펴 봅니다.

매디 :

때로는 의미를 밝히기 위해 수학 동기를 축소하고 살펴 보는 데 도움이됩니다.

좌표 축을 변경하여 대각선 행렬 로 변환 할 수있는 특수 행렬 제품군이 있습니다 . 당연히 그것들은 대각 화 가능한 행렬 이라고 불리우며 우아하게 충분합니다.이를 수행하는 데 필요한 새로운 좌표축은 실제로 고유 벡터입니다.

그것이 나오는 것처럼 공분산 행렬은 대칭 항상있을 것입니다 diagonalizeable ! 이 경우 고유 벡터를 주성분 이라고하며 고유 벡터 좌표로 공분산 행렬을 작성할 때 대각선 항목 (유일한 항목)은 고유 벡터 방향의 분산에 해당합니다. 이를 통해 가장 방향이 가장 큰 방향을 알 수 있습니다. 또한 공분산 행렬은이 좌표에서 대각선이므로 변수 사이의 모든 상관 관계를 영리하게 제거했습니다.

실제 응용에서 일반적으로, 우리는 변수가 정규 분포를 따르고 있기 때문에 가장 간단한 그림을보기 위해 좌표를 변경하고 변경하는 것이 자연 스럽다고 가정합니다. 주성분과 각각의 고유 값 (분산)을 알면 필요한 경우 데이터의 차원을 줄일 수 있고 데이터의 변동이 어디에 있는지에 대한 일반적인 요약을 신속하게 얻을 수 있습니다.

하지만 하루의 끝에서, 모든이 바람직의 루트는 대각 행렬이 있다는 사실에서 오는 방법으로 자신의 메시,보다 일반적인 사촌에 비해 다루기 쉽다.

— 크리스티안 부에노
소스

2

당신의 기여에 감사합니다. 그러나 PCA에 대한 불필요하게 좁은 해석을 다루는 것 같습니다. (1) PCA는 비 가우시안 데이터 세트에 효과적으로 적용되었습니다. (2) PCA는 공식적인 파라 메트릭 절차가 아닙니다. 아마도 그것을 영적인 탐색으로 생각하는 것이 좋습니다. (3) 모든 종류의 다변량 분포 또는 데이터의 모든 공분산 행렬은 대각선을 이룰 수 있습니다. Gaussianity (Normality) 또는 비 퇴행성 (non-degeneracy)은 요구 사항이 아닙니다. (매트릭스의 대칭과 실제 성분 이 대각선 화를 보장 합니다.)

— whuber

나는 잊어 버린 것을 당혹스럽게 생각하지만 공분산 행렬이 일반적으로 대각선이 될 수 있다는 좋은 점을 인정해야합니다. 이를 반영하여 편집하겠습니다. 또한 (2)에서 자세히 설명해 주시겠습니까? 파라 메트릭 또는 비 파라 메트릭 프로 시저의 차이점에 익숙하지 않습니다.

— 크리스티안 부에노

7

나는 PCA를 기하학적 도구로 본다. 3 공간에 많은 점이 주어지고 거의 모든 직선에 해당 점의 방정식을 찾으려면 PCA를 통해 얻습니다 (첫 번째 구성 요소 사용). 3 공간에 많은 평면 점이 있고 그 평면의 방정식을 발견하려면 PCA를 통해 수행하십시오 (가장 중요한 성분 벡터를 취하고 평면에 수직이어야 함).

— 초라한 요리사
소스

7

왜 고유 값 / 고유 벡터인가?

PCA를 수행 할 때 각 기저 벡터에서 예상 분산을 최대화하여 직교 기준을 계산하려고합니다.

이전 기준 벡터를 계산 한 후 다음 벡터를 원합니다.

이전과 직교
규범 1
예상 분산을 최대화하는 것, 즉 최대 공분산 표준

이것은 제한적인 최적화 문제이며 Lagrange multipliers (기하학적 직관은 Wikipedia 페이지 참조)는 그라디언트의 목표 (예상 분산) 및 제약 조건 (단위 표준)이 "병렬"이어야한다는 것을 알려줍니다.

이것은 다음 기저 벡터가 공분산 행렬의 고유 벡터 여야한다고 말하는 것과 같습니다. 각 단계에서 최선의 선택은 나머지 것 중에서 고유 값이 가장 큰 것을 선택하는 것입니다.

5

확실히 하지 평신도에 대한 설명 - 직교 기저 벡터? 투영 분산을 최대화합니까? 제한된 최적화 문제? 라그랑주 승수? 이러한 용어는 "용어가 많은"용어입니다. 이 말의 의미를 이해하는 평신도를 보여 주면 수학자 / 통계 학자

— 확률 론적을

6

기본적으로 PCA는 새로운 공간에서 데이터의 치수가 더 작도록 원래 변수의 선형 조합 인 새 변수를 찾습니다. 비스듬히 세워진 평판 표면의 3 차원 점으로 구성된 데이터 세트를 생각해보십시오. 원래 x, y, z 축에서는 데이터를 나타 내기 위해 3 차원이 필요하지만 올바른 선형 변환에서는 2 만 필요합니다.

기본적으로 @Joel이 말했지만 입력 변수의 선형 조합 만 있습니다.

— 쉴 로모 아가 몬
소스

6

얼마 전 나는이 PCA 알고리즘을 이해하려고 시도했고 고유 벡터와 고유 값에 대해 메모하고 싶었다. 이 문서는 EV의 목적이 큰 모델의 모델을 매우 작은 모델로 변환하는 것이라고 밝혔다.

예를 들어, 전체 크기의 교량을 먼저 건설 한 다음 실험 및 테스트를 수행하는 대신 EV를 사용하여 모든 요인 / 수량이 동일한 마진으로 감소하는 매우 작은 크기의 교량을 만들 수 있습니다. 시험의 실제 결과 및 응력 관련 시험은 원래 모델에 대해 필요에 따라 적절히 계산 및 확대 될 수 있습니다. 어떤면에서 EV는 원본의 초록을 만드는 데 도움이됩니다 .

나 에게이 설명은 내가하려는 일에 깊은 의미가있었습니다! 그것이 당신에게도 도움이되기를 바랍니다!

— 로르 샤흐
소스

-1. 어쩌면 나는 그 비유를 완전히 이해하지 못했지만 나에게는 오해의 소지가 있습니다. PCA는 실제로 "큰"모델을 "작은"모델로 "변환"할 수 있지만 데이터 세트의 차원을 줄임으로써 가능합니다. 그러나 큰 다리보다 작은 차원의 작은 다리는 어떻습니까?! 둘 다 3D입니다.

— amoeba

@amoeba :이 추출물은 내가 읽은 종이에서 나온 것입니다. 나는 오랫동안이 주제를 연구하지 않았으며 추적을 잃었습니다.

— Rorschach

6

할머니가 방금 크리스마스에 준 디지털 카메라로 첫 사진과 영화를 찍었다 고 상상해보십시오. 불행히도 사진 버튼을 누르면 오른손이 떨어지고 영화 중에도 약간 흔들립니다. 그녀는 사람, 나무, 울타리, 건물, 출입구, 가구 등이 똑바로 위아래로 움직이지 않고 수직이 아니며 바닥, 땅, 바다, 수평선이 수평이 아니라는 것을 알았습니다. 영화도 다소 흔들립니다. 그녀는 당신이 그녀가 그녀의 사진, 3000 휴가 사진과 약 100 개의 비디오를 집과 해변 (호주)에서 고치고, 선물을 열고, 나라를 걷는 데 도움이되는지 묻습니다. 그녀는 당신이 말하는 것을 할 수있는이 사진 소프트웨어를 가지고 있습니다. 며칠이 걸리고 어쨌든 동영상에서는 작동하지 않는다고 말하고 그러나 PCA 및 ICA라는 기술은 도움이 될 수 있습니다. 여러분의 연구는 실제로 이러한 종류의 데이터를 자연적인 차원으로 회전시키는 것과 관련이 있으며, 이러한 기술은 데이터에서 가장 중요한 방향,이 경우의 사진을 찾고 가장 중요한 방향이 수평이되도록 회전하고, 두 번째는 회전하도록 설명합니다 수직입니다 (그리고 시간은 영화의 차원이기도하지만 더 잘 상상할 수없는 더 많은 차원에서 계속 될 수 있습니다).

-

기술적 인 측면. 실제로, 당신은 아마도 그녀를 위해 박사 학위를 취득 할 수 있으며, Bell과 Sejnowski (1997)의 가장자리에 해당하는 이미지의 독립적 인 구성 요소에 대한 중요한 논문이 있습니다. 이를 PCA와 관련시키기 : ICA는 PCA 또는 SVD를 첫 번째 단계로 사용하여 차원 및 초기 근사치를 줄이고 PCA와 같은 2 차 오류 (SSE)뿐만 아니라 높은 순서 오류를 고려하여 개선합니다. 많은 알고리즘이 3 차 또는 4 차로 제한 되기는하지만 ICA는 모든 고차입니다. 하위 PCA 구성 요소는 수평 및 수직의 영향을 많이받습니다. 영화의 카메라 동작을 처리하는 것도 PCA / ICA를 사용할 수 있습니다. 2D 사진과 2½D 영화 모두이를 달성하려면 몇 가지 표현 기법이 필요합니다.

할머니에게 설명 할 수있는 또 다른 응용 프로그램은 고유 얼굴입니다. 고급 고유 벡터는 '7 가지 기본 감정'(각각의 평균 얼굴과 '평균 스케일링'또는 평균을 수행하는 선형 조합)과 비슷할 수 있지만 종종 다음과 같은 구성 요소를 찾습니다. 성별 및 인종과 관련이 있으며 일부는 개인 또는 개인 특징 (안경, 수염 등)을 구별 할 수 있습니다. 이것은 한 개인의 사진이 많지 않고 많은 감정 / 표현이있는 경우에 발생하지만 중립적 인 표정을 가진 얼굴이 많은 경우 다른 편견을 갖게됩니다. PCA 대신 ICA를 사용하는 것이 기본 감정에 큰 도움이되지는 않지만 Bartlett and Sejnowsiki (1997)는 얼굴 인식에 유용한 기능을 발견했습니다.

— David MW Powers
소스

1

나는 예제들과 비유하여 의사 소통하는 노력에 감사한다. 그러나 할머니의 높은 회전 가능성 때문에 이미지를 사용하는 것은 불행합니다. "회전"이라는 느낌은 실제로 이미지 의 축을 회전시키는 것과 관련이 없으며, "치수"를 사용하고 있다는 것을 이해하지 못할 수도 있습니다. "은 사진이 단지 2 개가 아닌 수백만 개의 치수를 갖는 추상적 인 의미에서"

— whuber

예, 다른 답변의 이미지와 마찬가지로 포인트 클라우드로 표시해야합니다. 어떤 형태의 에지 검출 및 / 또는 임계 값을 갖는 전처리는 내가 언급 한 "트릭"의 일부일 것이다. 그러나 복잡한 사진을 조작하려면 박사 학위가 필요합니다.

— David MW Powers

@ whuber 실제로 스테레오 이미지 보정을 할 때 이러한 회전을 찾기 위해 PCA (well SVD)를 사용했습니다! 확실히 같은 회전 감각입니다.

— David MW Powers

2

모든 사람들이 잘못된 끝에서 고유 벡터로부터 PCA를 설명하기 시작한다고 생각합니다. 내 대답은 올바른 위치에서 시작합니다 : 좌표계. 고유 벡터와 일반적으로 고유 문제는 잘못된 좌표계 인 실제 문제를 해결하는 데 사용되는 수학적 도구입니다. 설명하겠습니다.

줄부터 시작합시다. 라인은 무엇입니까? 그것은 1 차원 물체입니다. 따라서 한 지점에서 다른 지점으로 이동하려면 한 차원 만 필요합니다. 평면에서 두 좌표를 선의 모든 점에 연결합니다. 이것은 선 자체와 관련하여 좌표계가 임의로 선택되기 때문입니다. 내가 주장하는 좌표계는 선의 내부적 인 1 차원 적 특성을 반영하지 않는다. 직교 좌표계의 원점을 항상 선에 놓고 x 축이 선에 있도록 회전하면 더 이상 y 축이 필요하지 않습니다! 선은 1 차원 개체이기 때문에 모든 점이 한 축에 있습니다.

PCA 설명이 시작되는 곳입니다. 고유 문제는 내가 설명한 회전을 수행하는 도구이며 변수를 의미하지 않으면 원점이 선에 놓입니다. PCA 는 변수 간의 관계가 선형 인 한 데이터의 실제 차원을 밝히는 데 도움이됩니다 .

— 악사 칼
소스

1

고유 벡터는 변환이 동일한 입력 벡터와 평행 한 벡터입니다. 따라서 고유 값이 높은 고유 벡터는 고유 벡터가 데이터에 대해 높은 수준의 '병렬성'을 가짐을 의미합니다. 즉,이 벡터로만 데이터를 표현할 수 있으며 새로운 표현에서 오류가 적을 수 있습니다. 고유 값이 더 낮은 고유 벡터를 추가로 선택하면 다른 '병렬'을 나타 내기 때문에 데이터의 세부 사항을 더 많이 나타낼 수 있습니다. 이는 고유 값이 낮아서 첫 번째만큼 눈에 띄지 않습니다.

— felipeduque
소스

0

PCA는 기본적으로 가능한 많은 정보를 유지하면서보다 높은 차원의 공간을 낮은 차원의 공간으로 투영 한 것입니다.

3D 주전자의 투영을 통해 PCA를 설명 하는 블로그 게시물을 작성했습니다 .

... 가능한 많은 정보를 유지하면서 2D 평면으로 :

자세한 내용과 전체 R 코드는 게시물에서 찾을 수 있습니다 :
http://blog.ephorie.de/intuition-for-principal-component-analysis-pca

— 폰즈
소스

1

그럼에도 불구하고 이미지는 현재 답변보다 더 많은 의견입니다. 링크에서 정보 요약을 제공하여 확장 할 수 있습니까? SE 네트워크의 게시물은 독자적으로 설 수 있어야합니다.

— gung

@gung : 충분히 공평하다-요지는 PCA가 기본적으로 더 많은 정보를 보존하면서 더 낮은 차원의 공간 (이 경우에는 2D 평면)에 더 높은 차원의 공간 (이 경우 3D- 찻 주전자)을 투영한다는 것입니다 가능한. 답변에서 변경합니다.

— vonjd

그것은 사실입니다 (이 스레드에 대한 다른 많은 기존 답변에서 설명 됨). 일반적으로 SE 시스템에 게시 된 답변에 더 많은 것이 있어야하며, 예를 들어 링크가 끊어지면 스스로 견딜 수 있어야합니다.

— gung

1

주전자 예제가 흥미 롭습니다. PCA는 많은 '정보'를 유지하면서 차원 공간을 낮추는 투사라고 말합니다. 그러나 .... 정보 란 무엇입니까? PCA의 경우 이는 총 분산을 최대한 높게 유지하는 것을 의미합니다. 찻 주전자의 예는 특정 평면에서 투영을 사용하여 정보가 "가장 많이 보존되어"있다고 말하는 것과 비슷하지만 PCA가이를 수행하는 방법과 정보의 '최고'선택 여부도 거의 설명하지 않습니다. 예를 들어 LDA는 PCA와 동일하지 않은 정보를 보존하려는 계획입니다.

— Martijn Weterings

주전자가 PCA보다 더 둥글거나 원형 (낮은 키) 인 경우 대부분의 "정보"를 보존하기 위해 다른 교차로를 '선택'했을 것입니다.

— Martijn Weterings

-4

아마도 이러한 분석의 후반부에서 그룹 I의 데이터가 그룹 II와 다르고 어떤 구성 요소가 차이에 가장 큰 영향을 미치는지 파악하려고한다는 암시적인 가정 일 것입니다.

2 개의 다른 세트에 대해 동일한 타원체를 생성하는 PCA 분석을 수행하면 측정 한 매개 변수에 따라 두 세트가 다르지 않다는 것을 알 수 있습니다.

— jcourtright
소스

2

나는 당신이 MANOVA를 생각하고 있는지 궁금합니다. 두 개의 별도 PCA를 실행 한 경우 상관 관계 구조가 유사하다는 것만 표시합니다.

— gung

2

-1. 이것은 @gung에 의해 설명 된 이유로 오해의 소지가있는 답변입니다. 또한 PCA가 무엇인지 설명하지도 않습니다.

— amoeba