문제 설명
PCA가 최적화하려는 기하학적 문제는 나에게 분명합니다. PCA는 재구성 (투영) 오류를 최소화하여 첫 번째 주요 구성 요소를 찾으려고합니다.
맞습니다. 나는 여기 (수학없이) 또는 여기 ( 수학적으로) 에서이 두 공식 간의 연결을 설명합니다 .
Cw∥w∥=1w⊤Cw
(이것이 분명하지 않은 경우 : 가 중심 데이터 행렬 인 경우 투영은 의해 주어 지고 그 분산은 )XXw1n−1(Xw)⊤⋅Xw=w⊤⋅(1n−1X⊤X)⋅w=w⊤Cw
반면에,의 고유 벡터 정의함으로써, 어떠한 벡터 되도록 .CvCv=λv
첫 번째 주 방향은 고유 값이 가장 큰 고유 벡터에 의해 주어진다는 것이 밝혀졌습니다. 이것은 사소하고 놀라운 진술입니다.
증명
PCA에서 책이나 튜토리얼을 열면 위의 진술에 대한 거의 한 줄의 증거를 찾을 수 있습니다. ; 제약 조건에서 를 최대화하려고합니다 . 이것은 Lagrange 멀티 플라이어를 도입하고 최대화하는 것이 가능합니다 . 미분하면 . 이는 고유 벡터 방정식입니다. 우리는 가이 솔루션을 목적 함수로 대체함으로써 실제로 가장 큰 고유 값 임을 보았습니다.승⊤C 승∥ w ∥ = w⊤w =1승⊤C w −λ( w⊤승 −1)λC w −λ w =0λ승⊤C w −λ( w⊤w −1)= 승⊤C w =의λ w⊤w =λ . 이 목적 함수를 최대화해야한다는 사실 때문에 는 가장 큰 고유 값 QED 여야합니다.λ
이것은 대부분의 사람들에게 직관적이지 않은 경향이 있습니다.
더 나은 증거 (예 : @cardinal의 깔끔한 답변 참조 )는 가 대칭 행렬 이기 때문에 고유 벡터를 기준으로 대각선이라는 것을 나타냅니다. (이것은 실제로 스펙트럼 정리 라고합니다 .) 우리는 직교 기준, 즉 고유 벡터에 의해 주어진 것을 선택할 수 있습니다. 여기서 는 대각선이고 고유 값은 입니다. 이를 바탕으로 는 단순화됩니다. 즉, 분산은 고유 값의 가중치 합계에 의해 제공됩니다. 이 식을 최대화하려면 간단히씨C λ i w ⊤ C w ∑ λ i w 2 i w = ( 1 , 0 , 0 , … , 0 ) λ 1 w ⊤ C w씨λ나는승⊤C 승∑ λ나는승2나는w =(1,0,0,…,0)즉, 첫 번째 고유 벡터로 분산 산출합니다 (실제로이 솔루션에서 벗어나고 작은 요소의 부품에 대해 가장 큰 고유 값의 "거래"부분은 전체 분산이 더 작아짐). 의 값은 기본에 의존하지 않습니다! 고유 벡터 기준으로 변경하면 회전이 발생하므로 2D에서 산점도를 사용하여 종이를 회전시키는 것을 상상할 수 있습니다. 분명히 이것은 변화를 바꿀 수 없습니다.λ1승⊤C 승
저는 이것이 매우 직관적이고 매우 유용한 주장이라고 생각하지만, 스펙트럼 정리에 의존합니다. 제가 생각하는 실제 문제 는 스펙트럼 정리의 직관이 무엇입니까?
스펙트럼 정리
대칭 행렬 취하십시오 . 고유 값이 고유 벡터 을 취하십시오 . 이 고유 벡터를 첫 번째 기본 벡터로 만들고 다른 기본 벡터를 무작위로 선택하십시오 (모두 정규직이되도록). 어떻게 것 이 기준에 모습을?씨승1λ1씨
그것은 것이다 하기 때문에, 왼쪽 상단 이 기초하고있는 은 과 같아야합니다 .λ1승1= ( 1 , 0 , 0 … 0 )C 승1= ( C11, C21, ... C1 페이지)λ1승1= ( λ1, 0 , 0 … 0 )
같은 인수로 아래의 첫 번째 열에는 0이 있습니다 .λ1
그러나 대칭이기 때문에 다음의 첫 번째 행에도 0이 있습니다. 따라서 다음과 같이 보일 것입니다.λ1
C = ⎛⎝⎜⎜⎜⎜λ10⋮00…0⎞⎠⎟⎟⎟⎟,
여기서 빈 공간은 일부 요소의 블록이 있음을 의미합니다. 행렬은 대칭이므로이 블록도 대칭입니다. 따라서 두 번째 고유 벡터를 효과적으로 2 차 벡터로 사용 하고 대각선에 및 를 얻는 것과 동일한 인수를 적용 할 수 있습니다 . 이것은 가 대각선 이 될 때까지 계속 될 수 있습니다 . 그것은 본질적으로 스펙트럼 정리입니다. ( 가 대칭 이기 때문에 작동 방식에 유의하십시오 .)λ1λ2씨씨
다음은 정확히 같은 주장에 대한보다 추상적 인 재구성입니다.
우리는 이므로 첫 번째 고유 벡터는 가 스칼라 곱셈으로 작용 하는 1 차원 부분 공간을 정의합니다 . 이제 과 직교 인 벡터 보자 . 그러면 또한 과 직교 한다는 것은 거의 즉각적입니다 . 과연:C 승1= λ1승1씨V승1C v승1
승⊤1C v =( w⊤1C v )⊤= v⊤씨⊤승1= v⊤C 승1= λ1V⊤승1= λ1⋅ 0 = 0입니다.
이 것을 의미 전체의 나머지 부분 공간에 작용 직교 는 별도 유지되도록 . 이것이 대칭 행렬의 중요한 속성입니다. 따라서 우리는 여기서 가장 큰 고유 벡터 인 를 찾아 같은 방식으로 진행하여 결국 정규직 고유 벡터를 구성합니다.씨승1승1승2