주성분 분석 은 매트릭스 분해를 사용할 수 있지만, 이는 단지 도달하기위한 도구 일뿐입니다.
행렬 대수를 사용하지 않고 주성분을 어떻게 찾을 수 있습니까?
목적 함수 (목표)는 무엇이며 제약 조건은 무엇입니까?
주성분 분석 은 매트릭스 분해를 사용할 수 있지만, 이는 단지 도달하기위한 도구 일뿐입니다.
행렬 대수를 사용하지 않고 주성분을 어떻게 찾을 수 있습니까?
목적 함수 (목표)는 무엇이며 제약 조건은 무엇입니까?
답변:
최적화 관점에서 PCA에 대한 완전한 입문서를 제공하지 않고 기본 목표 함수 는 Rayleigh quotient 입니다. 몫에 나타난 행렬은 표본 공분산 행렬 여기서 각 는 피처 의 벡터 이고 는 번째 행이 가되도록 행렬 입니다.
PCA는 일련 의 최적화 문제 를 해결하려고합니다 . 순서의 첫 번째는 제한되지 않은 문제
이후위의 제한되지 않은 문제는 제한된 문제 u T S u를 최대화 하도록 u T u = 1을 적용합니다
여기에 행렬 대수가 나오는 곳이 있습니다. 는 (양식 별) 대칭 양의 반 정규 행렬이므로 형식의 고유 값 분해를 갖습니다. 여기서 는 직교 행렬 (따라서 )이고 은 음수가 아닌 와 함께 과 같은 음수가 아닌 대각 행렬입니다 .
그러므로, . 이후 하나의 표준을 갖는 것이 문제로 구속하고 그렇다 보낸 , 덕분에 직교.
그러나 제약 조건에서 수량을 최대화하려는 경우 최선을 다하는 것이 세트 ,이라고 및 에 대한 .
이제 우리가 먼저 찾은 해당 제거하면 여기서 는 의 첫 번째 열 , 즉 의 가장 큰 고유 값에 해당하는 고유 벡터를 나타냅니다 . 목적 함수의 값은 것으로 쉽게 볼 수 있습니다 .
나머지 주성분 벡터는 최적화 문제 의 시퀀스 ( 색인화 됨 )를 해결하여 따라서 문제가 동일하지만 솔루션이 시퀀스의 모든 이전 솔루션에 직교해야한다는 추가 제약 조건을 추가한다는 점이 다릅니다 . 번째 문제의 해가 실제로 의 번째 고유 벡터 인 임을 나타 내기 위해 위의 주장을 유도 적으로 확장하는 것은 어렵지 않습니다 .
PCA 솔루션은 종종 의 특이 값 분해 로 표현됩니다 . 이유를 확인하려면 . 그런 다음 그래서 (엄밀히 말하면, 뒤집기 부호까지) 및 .
주성분 은 주성분 벡터에 투영하여 찾습니다. 방금 주어진 SVD 공식에서
주요 구성 요소 벡터와 주요 구성 요소 자체를 피처 매트릭스의 SVD로 표현하는 단순성은 SVD 피처가 PCA의 일부 처리에서 두드러지게 나타나는 이유 중 하나입니다.
추기경으로 제시된 솔루션 은 샘플 공분산 매트릭스에 중점을 둡니다. 또 다른 시작점은 q 차원 초평면에 의한 데이터 의 재구성 오류 입니다 . 경우] P 차원 데이터 포인트는 대물 해결하는
A에 대한 행렬 직교 열과 함께 . 이것은 유클리드 규범에 의해 측정 된 최고 순위 q 재구성을 제공하며 , 솔루션 의 열은 첫 번째 q 주성분 벡터입니다.
고정 의 경우 및 (회귀)에 대한 솔루션 은
표기법을 쉽게하기 위해 가 다음 계산의 중심에 있다고 가정합니다 . 그런 다음 최소화해야합니다
정규 직교 열을 사용하여 이상 . 참고 는 IS 투영 상 Q 차원 열 공간. 따라서 문제는 을 최소화하는 것과 같습니다.
랭크 이상 q 개의 돌기 . 우리가 필요하다 최대화
랭크 q 투영 , 여기서 는 샘플 공분산 행렬입니다. 지금
재구성 오류는 다수의 유용한 일반화, 예를 들어 희소 주성분 또는 초평면 대신 저 차원 매니 폴드에 의한 재구성을 암시합니다. 자세한 내용 은 통계 학습 요소 14.5 단원을 참조하십시오 .