PCA의 목적 기능은 무엇입니까?

주성분 분석 은 매트릭스 분해를 사용할 수 있지만, 이는 단지 도달하기위한 도구 일뿐입니다.

행렬 대수를 사용하지 않고 주성분을 어떻게 찾을 수 있습니까?

목적 함수 (목표)는 무엇이며 제약 조건은 무엇입니까?

pca

— 닐 맥기 건
소스

어쩌면 내가 누락 된 것이기 때문에 내가 틀렸다면 수정하십시오. (적어도 원칙적으로) (복잡한) 선형 프로그래밍 문제로 행렬을 사용하여 PCA에서 수행되는 작업을 구성하는 것이 가능해야합니다. 필요한 모든 제약 조건을 설명하는 방법을 알고 있어야합니다. 또한 PCA를 사용하는 것과 비교하여 매우 간단하다는 것을 확신하지 못합니다. 왜 행렬을 피하려고합니까?

— Chris Simokat

@Chris 선형 프로그래밍 문제를 어떻게 해결할 수 있는지 모르겠습니다. 계산 에서 행렬을 피해야한다는 것을 이해하지 못했습니다 . 문제는 PCA에 의해 어떤 종류의 문제가 해결 되었는가 (SVD를 계산하는 등의) 방식이 아닙니다. 추기경의 해결책은 최대 분산 의 연속 직교 방향을 찾는다고 말합니다 . 내가 제시 한 솔루션에 따르면 재구성 오류가 최소화 된 초평면을 찾을 수 있습니다.

— NRH

@ chris 매트릭스 대수없이 PCA를 볼 수있는 또 다른 방법을 찾고자합니다.

— Neil McGuigan

@Chris, 당신은 2 차 목적 함수와 표준 평등 제약 조건을 가지고 있습니다. 또는 @NRH의 답변 공식에서 행렬 순위 제약 조건이 있습니다. 그것은 선형 프로그래밍 문제로 넘어 가지 않을 것입니다. @NRH는 약간의 직관력을 제공하며 실제로 PCA의 두 가지 관점 사이에는 밀접한 관련이 있습니다. @NRH와 협력하여 전체 답변을 더 완벽하게 만들기 위해 게시물에 추가 할 수 있습니다.

ℓ_{2}

$\ell_2$

— 추기경

@NRH, 사실 ESL 을 많이 좋아 하지만이 주제에 대한 치료는 책의 많은 주제에서와 같이 매우 피상적이라고 생각합니다. 특히, 그들은 당신이주는 최적화 문제에 대한 솔루션의 중요한 부분을 입증하지 못하거나 연습으로 할당하지도 않습니다.

— 추기경

답변:

최적화 관점에서 PCA에 대한 완전한 입문서를 제공하지 않고 기본 목표 함수 는 Rayleigh quotient 입니다. 몫에 나타난 행렬은 표본 공분산 행렬 여기서 각 는 피처 의 벡터 이고 는 번째 행이 가되도록 행렬 입니다.

S = \frac{1}{n} \sum_{i = 1}^{n} x_{i} x_{i}^{T} = X^{T} X / n

$\newcommand{\m}[1]{\mathbf{#1}}\newcommand{\x}{\m{x}}\newcommand{\S}{\m{S}}\newcommand{\u}{\m{u}}\newcommand{\reals}{\mathbb{R}}\newcommand{\Q}{\m{Q}}\newcommand{\L}{\boldsymbol{\Lambda}} \S = \frac{1}{n} \sum_{i=1}^n \x_i \x_i^T = \m{X}^T \m{X} / n$

x_{i}

$\x_i$

p

$p$

X

$\m{X}$

i

$i$

x_{i}^{T}

$\x_i^T$

PCA는 일련 의 최적화 문제 를 해결하려고합니다 . 순서의 첫 번째는 제한되지 않은 문제

\begin{array}{ll} maximize & \frac{u^{T} S u}{u^{T} u}, u \in R^{p} . \end{array}

$\begin{array}{ll} \text{maximize} & \frac{\u^T \S \u}{\u^T\u} \;, \u \in \reals^p \> . \end{array}$

이후위의 제한되지 않은 문제는 제한된 문제 $\u^T \u = \|\u\|_2^2 = \|\u\| \|\u\|$

\begin{array}{ll} maximize & u^{T} S u \\ subject to & u^{T} u = 1 . \end{array}

$\begin{array}{ll} \text{maximize} & \u^T \S \u \\ \text{subject to} & \u^T \u = 1 \>. \end{array}$

여기에 행렬 대수가 나오는 곳이 있습니다. 는 (양식 별) 대칭 양의 반 정규 행렬이므로 형식의 고유 값 분해를 갖습니다. 여기서 는 직교 행렬 (따라서 )이고 은 음수가 아닌 와 함께 과 같은 음수가 아닌 대각 행렬입니다 . $\S$

S = Q Λ Q^{T},

$\S = \Q \L \Q^T \>,$

Q

$\Q$

Q Q^{T} = I

$\Q \Q^T = \m{I}$

Λ

$\L$

λ_{i}

$\lambda_i$

λ_{1} \geq λ_{2} \geq \dots \geq λ_{p} \geq 0

$\lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_p \geq 0$

그러므로, . 이후 하나의 표준을 갖는 것이 문제로 구속하고 그렇다 보낸 , 덕분에 직교. $\u^T \S \u = \u^T \Q \L \Q^T \u = \m{w}^T \L \m{w} = \sum_{i=1}^p \lambda_i w_i^2$ $\u$ $\m{w}$ $\|\m{w}\|_2 = \|\Q^T \u\|_2 = \|\u\|_2 = 1$ $\Q$

그러나 제약 조건에서 수량을 최대화하려는 경우 최선을 다하는 것이 세트 ,이라고 및 에 대한 . $\sum_{i=1}^p \lambda_i w_i^2$ $\sum_{i=1}^p w_i^2 = 1$ $\m{w} = \m{e}_1$ $w_1 = 1$ $w_i = 0$ $i > 1$

이제 우리가 먼저 찾은 해당 제거하면 여기서 는 의 첫 번째 열 , 즉 의 가장 큰 고유 값에 해당하는 고유 벡터를 나타냅니다 . 목적 함수의 값은 것으로 쉽게 볼 수 있습니다 . $\u$

u^{⋆} = Q e_{1} = q_{1}

$\u^\star = \Q \m{e}_1 = \m{q}_1$

q_{1}

$\m{q}_1$

Q

$\Q$

S

$\S$

λ_{1}

$\lambda_1$

나머지 주성분 벡터는 최적화 문제 의 시퀀스 ( 색인화 됨 )를 해결하여 따라서 문제가 동일하지만 솔루션이 시퀀스의 모든 이전 솔루션에 직교해야한다는 추가 제약 조건을 추가한다는 점이 다릅니다 . 번째 문제의 해가 실제로 의 번째 고유 벡터 인 임을 나타 내기 위해 위의 주장을 유도 적으로 확장하는 것은 어렵지 않습니다 . $i$

\begin{array}{ll} maximize & u_{i}^{T} S u_{i} \\ subject to & u_{i}^{T} u_{i} = 1 \\ u_{i}^{T} u_{j} = 0 \forall 1 \leq j < i . \end{array}

$\begin{array}{ll} \text{maximize} & \u_i^T \S \u_i \\ \text{subject to} & \u_i^T \u_i = 1 \\ & \u_i^T \u_j = 0 \quad \forall 1 \leq j < i\>. \end{array}$

i

$i$

q_{i}

$\m{q}_i$

i

$i$

S

$\S$

PCA 솔루션은 종종 의 특이 값 분해 로 표현됩니다 . 이유를 확인하려면 . 그런 다음 그래서 (엄밀히 말하면, 뒤집기 부호까지) 및 . $\m{X}$ $\m{X} = \m{U} \m{D} \m{V}^T$ $n \S = \m{X}^T \m{X} = \m{V} \m{D}^2 \m{V}^T$ $\m{V} = \m{Q}$ $\L = \m{D}^2 / n$

주성분 은 주성분 벡터에 투영하여 찾습니다. 방금 주어진 SVD 공식에서 $\m{X}$

X Q = X V = U D V^{T} V = U D .

$\m{X} \m{Q} = \m{X} \m{V} = \m{U} \m{D} \m{V}^T \m{V} = \m{U} \m{D} \> .$

주요 구성 요소 벡터와 주요 구성 요소 자체를 피처 매트릭스의 SVD로 표현하는 단순성은 SVD 피처가 PCA의 일부 처리에서 두드러지게 나타나는 이유 중 하나입니다.

— 추기경
소스

처음 몇 개의 특이 값 / 벡터 만 필요한 경우 Nash와 Shlien은 지배적 고유 값 계산을위한 일반적인 전력 방법을 연상시키는 알고리즘을 제공 합니다 . OP에 관심이있을 수 있습니다.

— JM은 통계학자가 아닙니다.

@NRH, 오타를 확인하기 전에 오타를 잡아서 수정 해 주셔서 감사합니다!

— 추기경

안녕 @ 추기경, 답변 주셔서 감사합니다. 그러나 순차 최적화가 글로벌 최적으로 이어지는 이유를 입증하는 단계를 제공하지 않은 것 같습니다. 좀 더 자세히 설명해 주시겠습니까? 감사!

— Lifu Huang

추기경으로 제시된 솔루션 은 샘플 공분산 매트릭스에 중점을 둡니다. 또 다른 시작점은 q 차원 초평면에 의한 데이터 의 재구성 오류 입니다 . 경우] P 차원 데이터 포인트는 대물 해결하는 $x_1, \ldots, x_n$

min_{μ, λ_{1}, \dots, λ_{n}, V_{q}} \sum_{i = 1}^{n} | | x_{i} - μ - V_{q} λ_{i} | |^{2}

$\min_{\mu, \lambda_1,\ldots, \lambda_n, \mathbf{V}_q} \sum_{i=1}^n ||x_i - \mu - \mathbf{V}_q \lambda_i||^2$

A에 대한 행렬 직교 열과 함께 . 이것은 유클리드 규범에 의해 측정 된 최고 순위 q 재구성을 제공하며 , 솔루션 의 열은 첫 번째 q 주성분 벡터입니다. $p \times q$ $\mathbf{V}_q$ $\lambda_i \in \mathbb{R}^q$ $\mathbf{V}_q$

고정 의 경우 및 (회귀)에 대한 솔루션 은 $\mathbf{V}_q$ $\mu$ $\lambda_i$

μ = \bar{x} = \frac{1}{n} \sum_{i = 1}^{n} x_{i} λ_{i} = V_{q}^{T} (x_{i} - \bar{x})

$\mu = \overline{x} = \frac{1}{n}\sum_{i=1}^n x_i \qquad \lambda_i = \mathbf{V}_q^T(x_i - \overline{x})$

표기법을 쉽게하기 위해 가 다음 계산의 중심에 있다고 가정합니다 . 그런 다음 최소화해야합니다 $x_i$

\sum_{i = 1}^{n} | | x_{i} - V_{q} V_{q}^{T} x_{i} | |^{2}

$\sum_{i=1}^n ||x_i - \mathbf{V}_q\mathbf{V}_q^T x_i||^2$

정규 직교 열을 사용하여 이상 . 참고 는 IS 투영 상 Q 차원 열 공간. 따라서 문제는 을 최소화하는 것과 같습니다. 랭크 이상 q 개의 돌기 . 우리가 필요하다 최대화 랭크 q 투영 , 여기서 는 샘플 공분산 행렬입니다. 지금 $\mathbf{V}_q$ $P = \mathbf{V}_q\mathbf{V}_q^T$

\sum_{i = 1}^{n} | | x_{i} - P x_{i} | |^{2} = \sum_{i = 1}^{n} | | x_{i} | |^{2} - \sum_{i = 1}^{n} | | P x_{i} | |^{2}

$\sum_{i=1}^n ||x_i - P x_i||^2 = \sum_{i=1}^n ||x_i||^2 - \sum_{i=1}^n||Px_i||^2$

P

$P$

\sum_{i = 1}^{n} | | P x_{i} | |^{2} = \sum_{i = 1}^{n} x_{i}^{T} P x_{i} = tr (P \sum_{i = 1}^{n} x_{i} x_{i}^{T}) = n tr (P S)

$\sum_{i=1}^n||Px_i||^2 = \sum_{i=1}^n x_i^TPx_i = \text{tr}(P \sum_{i=1}^n x_i x_i^T) = n \text{tr}(P \mathbf{S})$

P

$P$

S

$\mathbf{S}$

tr (P S) = tr (V_{q}^{T} S V_{q}) = \sum_{i = 1}^{q} u_{i}^{T} S u_{i}

$\text{tr}(P\mathbf{S}) = \text{tr}(\mathbf{V}_q^T\mathbf{S}\mathbf{V}_q) = \sum_{i=1}^q u_i^T \mathbf{S} u_i$ 여기서 는 의 (정규) 열 이며 @ cardinal 's answer에 표시된 인수는 ' 들 수하는 대한 고유 벡터 와 가장 큰 고유 값.

u_{1}, \dots, u_{q}

$u_1, \ldots, u_q$

q

$q$

V_{q}

$\mathbf{V}_q$

u_{i}

$u_i$

q

$q$

S

$\mathbf{S}$

q

$q$

재구성 오류는 다수의 유용한 일반화, 예를 들어 희소 주성분 또는 초평면 대신 저 차원 매니 폴드에 의한 재구성을 암시합니다. 자세한 내용 은 통계 학습 요소 14.5 단원을 참조하십시오 .

— NRH
소스

(+1) 좋은 점. 몇 가지 제안 : 그것은 정의하는 것이 좋은 것 하고있을 것이다 정말 결과의 짧은 증거를 제공하기 위해 좋은. 또는 Rayleight 몫과 관련된 최적화 문제에 연결할 수도 있습니다. 나는 이것이이 질문에 대한 답변을 매우 완전하게 만들 것이라고 생각합니다!

λ_{i}

$\lambda_i$

— 추기경

@ cardinal, 나는 재구성 공식에서 당신이 해결하는 문제에 이르기까지 누락 된 단계를 완료했다고 생각합니다.

— NRH

잘 했어. 남은 유일한 차이는 마지막 진술에 있다고 생각합니다. 합계를 최적화하는 것이 내 답변에서 일련의 최적화를 수행하는 것과 동일하다는 것은 즉시 명백하지 않습니다. 사실, 나는 그것이 일반적으로 직접적으로 따르는 것으로 생각하지 않습니다. 그러나 여기서도 다루지 않아도됩니다.

— 추기경

@ 추기경, 유도가 뒤 따른다. 유도 시작을 제공하고 유도 단계 에서 합계를 최대화하는 직교 정규 벡터 를 선택하고 가 직교하는 단위 벡터가 되도록 정렬하십시오 . 그런 다음 결과로 및 유도 가정 . 물론, 기초는 차원 공간에 대한 고유 한 기초가 아니다 . 직접 증명을하기 위해 사용하는 "볼록 조합 인수"를 일반화 할 수도 있습니다.

w_{1}, \dots, w_{q}

$w_1, \ldots, w_q$

w_{q}

$w_q$

u_{1}, \dots, u_{q - 1}

$u_1, \ldots, u_{q-1}$

w_{q}^{T} S w_{q} \leq u_{q}^{T} S u_{q}

$w_q^T \mathbf{S} w_q \leq u_q^T \mathbf{S} u_q$

\sum_{i = 1}^{q - 1} w_{i}^{T} S w_{i} \leq \sum_{i = 1}^{q - 1} u_{i}^{T} S u_{i}

$\sum_{i=1}^{q-1} w_i^T \mathbf{S} w_i \leq \sum_{i=1}^{q-1}u_i^T \mathbf{S} u_i$

q

$q$

— NRH

@ cardinal, 나는 차원 고려를 사용하여 중첩을 강요하지 않습니다. 차원 부분 공간 이있는 경우 차원 부분 공간과 직교하도록 해당 공간에서 항상 를 선택할 수 있습니다 . 그런 다음 원하는 방식으로 기준 을 채 웁니다 .

q

$q$

w_{q}

$w_q$

(q - 1)

$(q-1)$

w

$w$

— NRH

행렬 분해를 명시 적으로 사용하지 않는 하나의 알고리즘에 대해서는 NIPALS ( wiki )를 참조하십시오 . 나는 당신이 여기에 행렬 대수를 피할 수 없기 때문에 행렬 대수를 피하고 싶다고 말할 때 당신이 의미하는 것으로 생각합니다 :)

— JMS
소스