PCA가 예상의 총 분산을 최대화하는 이유는 무엇입니까?


11

Christopher Bishop은 자신의 저서 인 Pattern Recognition and Machine Learning 을 통해 데이터가 이전에 선택한 구성 요소에 직교 공간으로 투영 된 후 각 연속 주성분이 투영의 분산을 1 차원으로 최대화한다는 증거를 작성합니다. 다른 사람들도 비슷한 증거를 보여줍니다.

그러나 이는 분산을 최대화한다는 점에서 연속 된 각 구성 요소가 하나의 차원으로 가장 잘 투영됨을 증명합니다. 이것이 왜 5 차원을 말하는 투영의 분산이 그러한 구성 요소를 먼저 선택할 때 극대화된다는 것을 의미 하는가?


데이터 세트를 5 차원으로 투영 한 결과 5 차원 데이터 세트의 "분산"이 무엇을 의미하는지 정확히 알려주시겠습니까? (이러한 수량을 최대화하려면 단일 숫자 여야합니다 .)
whuber

3
아주 좋은 지적입니다. Chris Bishop은 자신의 저서에서 프로젝션의 편차를 최소화하는 것을 언급하고 있으며 이것이 1 차원 이상의 의미가 무엇인지는 명확하지 않습니다. 분산이 최소화되는 이유와 그러한 절차가 공동으로 최소화하는 이유를 배우고 싶습니다.
michal

1
@ user123675 : 마지막 코멘트에서 아마도 "최소화"가 아니라 "최대화"를 의미 할 것입니다.
amoeba

그래, 너가 맞아. 죄송합니다!
michal

답변:


11

여러 차원의 분산 ( "총 분산")으로 이해되는 것은 단순히 각 차원의 분산의 합입니다. 수학적으로 공분산 행렬의 흔적입니다. 추적은 단순히 모든 대각선 요소의 합입니다. 이 정의에는 직교 선형 변환에서 트레이스가 변하지 않는 등 다양한 속성이 있습니다. 즉, 좌표축을 회전하면 총 분산이 동일하게 유지됩니다.

주교의 책 (섹션 12.1.1)에서 입증 된 것은 공분산 행렬의 주요 고유 벡터가 최대 분산의 방향을 제공한다는 것입니다. 두 번째 고유 벡터는 첫 번째 고유 벡터 등과 직교해야한다는 추가 제약 조건에서 최대 분산 방향을 제공합니다 (이것이 연습 12.1을 구성한다고 생각합니다). 목표가 2D 부분 공간에서 총 분산을 최대화하는 것이라면이 절차는 탐욕스러운 최대화입니다. 먼저 분산을 최대화하는 축 하나를 선택한 다음 다른 축을 선택하십시오.

귀하의 질문은 :이 탐욕스러운 절차가 왜 세계 최대치를 얻습니까?

다음은 @whuber가 의견에서 제안한 멋진 주장입니다. 먼저 좌표계를 PCA 축에 정렬합시다. 공분산 행렬은 대각선이됩니다 : . 단순화를 위해 동일한 2D 사례, 즉 최대 총 분산이있는 평면은 무엇입니까? 우리는 그것이 처음 두 기본 벡터 (총 분산 )에 의해 주어진 평면임을 증명하고 싶습니다 .Σ=diag(λi)λ1+λ2

두 개의 직교 벡터 및 걸쳐있는 평면을 고려하십시오 . 이 평면의 총 분산은따라서 고유 값 와 모두 양의 계수를 갖는 선형 조합이며 , 초과하지 않고 (아래 참조) 합계는 입니다. 그렇다면 최대 값이 도달한다는 것이 거의 확실합니다 .uv

uΣu+vΣv=λiui2+λivi2=λi(ui2+vi2).
λi12λ1+λ2

계수가 초과 할 수 없음을 표시하는 것만 남았습니다 . 공지 그 여기서 는 IS 번째 기저 벡터. 이 수량은 와 의해 스팬 된 평면 에 의 투영 길이입니다 . 따라서 QED의 과 동일한 의 제곱 길이보다 작아야합니다 .1uk2+vk2=(uk)2+(vk)2kkkuvk|k|2=1

PCA의 목적 함수 란 무엇인가에 대한 @cardinal의 답변도 참조하십시오 . (같은 논리를 따릅니다).


1
(+1)하지만 그렇지 현금 다양한 양의 (비 음성 고유 모델링)의 지갑의 컬렉션을 주어진 것으로하고, 고정 된 수의 직관적으로 명백하다 선택, 당신이 선택할 수있는 부유 한 지갑 것은 총을 극대화 현금? 이 직관이 옳다는 증거는 거의 사소한 것입니다. 가장 크게 취하지 않은 경우 가장 작은 금액을 더 많이 교환하여 합계를 향상시킬 수 있습니다. kkk
whuber

@amoeba : 목표가 분산의 합을 최대화하고 합의 분산이 아닌 경우 두 번째 투영이 첫 번째와 직교하는 이유는 없습니다.
Innuo

1
I 사과 - I는 이미 총 분산 것으로 인식하는 시점에 분석을 개발했다 생각했던 차원 서브 스페이스의 계수 하나도 초과하지 수있는 고유의 음이 아닌 선형 조합 인 과를 계수의 총계는 와 같습니다 . (이것은 간단한 행렬 곱셈의 문제입니다.-라그랑주 승수는 필요하지 않습니다.) 그러면 지갑 은유가 나타납니다. 그러한 분석을 수행해야한다는 데 동의합니다. k1k
whuber

1
@amoeba : 고유 벡터로 구성된 기본 문제를 고려하고 있음을 의미합니다 (대각 공분산 행렬로 곱하여 분산을 계산하는 경우 u와 v의 기본입니다). u와 v는 결국 그것들로 드러날 것이지만,이 증거의 단계에서 우리는 이것을 내가 생각한다고 생각해서는 안됩니다. 어느 시점에서 합이 1보다 큰 경우, 밑이 직교하고 각 벡터가 최대 1을 가져 오기 때문에 2 개의 벡터가 더 이상 직교하지 않을 것이라는 주장이 아닌가? 그러나 다시, 왜 우리는 직교 벡터 u와 v로 우리 자신을 제한합니까?
michal

1
@Heisenberg : 아, 알겠습니다! 물론, 나는 그것을 의미하지 않았다! 그러나 나는 왜 그것이 혼란 스러웠는지 봅니다. 이 "기본 선택"단계를 없애기 위해이 마지막 증거를 다시 작성했습니다. 내 편집 내용을 참조하십시오. 감사합니다.
amoeba

2

당신이 경우 상관 확률 변수는 분산의 내림차순으로 정렬하고 선택했다 등 그 합의 분산을 최대화 것을, 당신이 동의 첫 수확의 욕심 접근 그들의를 그 달성 것인가?Nkk

공분산 행렬의 고유 벡터에 투영 된 데이터는 본질적으로 상관되지 않은 데이터 열이며 분산은 각 고유 값과 같습니다.N

직관이 더 명확 해지려면 분산 최대화와 공분산 행렬의 고유 벡터를 가장 큰 고유 값으로 계산하고 직교 투영법을 상관 제거와 연관시켜야합니다.

두 번째 (제로 평균) 벡터 사이의 상관 계수가 내부 곱에 비례하기 때문에 두 번째 관계는 분명합니다.

공분산 행렬의 분산 최대화와 고유 분해 간의 관계는 다음과 같습니다.

는 열의 중심을 맞춘 후 데이터 행렬 이라고 가정하십시오 . 최대 분산 방향을 찾아야합니다. 모든 단위 벡터 에 대해 따라 투영 한 후의 분산 은Dvv

E[(Dv)tDv]=vtE[DtD]v=vtCov(D)v

가 가장 큰 고유 값에 해당하는 의 고유 벡터 인 경우 최대화됩니다 .vCov(D)


원래 질문은 오히려 : 분산의 합이 최대화 되도록 의 직교 선형 조합을 선택하십시오 ( 와 반대 ). 첫 번째 를 선택하는 욕심 많은 접근 방식이 그것을 달성한다는 것이 여전히 분명 합니까? kkk
amoeba

직교 선형 조합을 찾아서 가장 변형이 많은 를 선택하는 것은 프로세스가 설명하는 것입니다. 내 대답은 직교성이 욕심 많은 프로세스가 총 분산을 최대화한다는 목표를 달성하기에 충분하다고 주장합니다. Nk
Innuo

나는 그 주장을 잘 모르겠다. 직교성은 어떻게 중요합니까? 당신이 경우 변수를 선택해야 가장 높은 총 분산이를, 당신은 선택해야합니다 (상관없이 그들이 상관 여부에) 가장 높은 분산이 있습니다. Nkk
amoeba

아, 혼란을 이해합니다. 내 대답에 오타가있었습니다. 지금 수정했습니다.
Innuo

나는 당신이 여기에 뭔가 있다고 생각하지만, 합계 의 마술 모양은 설명이 필요합니다. PCA 또는 스펙트럼 분해와 어떤 관련이 있습니까?
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.