n 개의 행과 m 개의 열이있는 행렬이있는 경우 SVD 또는 다른 방법을 사용 하여 주어진 행렬의 낮은 순위 근사값 을 계산할 수 있습니다 .
그러나 낮은 순위 근사는 여전히 n 개의 행과 m 개의 열을 갖습니다. 동일한 수의 기능이 남아 있다고 가정 할 때 기계 학습 및 자연어 처리에 낮은 순위 근사치가 어떻게 유용 할 수 있습니까?
n 개의 행과 m 개의 열이있는 행렬이있는 경우 SVD 또는 다른 방법을 사용 하여 주어진 행렬의 낮은 순위 근사값 을 계산할 수 있습니다 .
그러나 낮은 순위 근사는 여전히 n 개의 행과 m 개의 열을 갖습니다. 동일한 수의 기능이 남아 있다고 가정 할 때 기계 학습 및 자연어 처리에 낮은 순위 근사치가 어떻게 유용 할 수 있습니까?
답변:
낮은 순위 근사 점은 치수 축소를 수행하기위한 것이 아닙니다.
아이디어는 도메인 지식을 기반으로 매트릭스의 데이터 / 항목이 어떻게 든 매트릭스를 낮은 순위로 만들 것입니다. 그러나 엔트리가 노이즈, 손상, 결 측값 등에 영향을받지 않는 이상적인 경우입니다. 관찰 된 매트릭스는 일반적으로 훨씬 높은 순위를 갖습니다.
따라서 낮은 순위 근사는 "원본"(노이즈 등으로 엉망이되기 전에 "이상적인"매트릭스)을 복구하는 방법입니다. 즉, 가장 일관된 매트릭스를 찾습니다 (관찰 된 항목의 관점에서) 전류 행렬과 함께 낮은 순위를 가지므로 이상적인 행렬에 대한 근사치로 사용할 수 있습니다. 이 매트릭스를 복구 한 후 노이즈 버전을 대신하여 더 나은 결과를 얻을 수 있습니다.
"현대 다변량 통계 기법 (Izenman)"에 따르면, 감소 된 순위 회귀는 PCA, 요인 분석, 표준 변동 및 상관 분석, LDA 및 대응 분석을 포함한 특수한 사례로 몇 가지 흥미로운 방법을 다룹니다.