왜 근사치가 낮은가?


20

n 개의 행과 m 개의 열이있는 행렬이있는 경우 SVD 또는 다른 방법을 사용 하여 주어진 행렬의 낮은 순위 근사값 을 계산할 수 있습니다 .

그러나 낮은 순위 근사는 여전히 n 개의 행과 m 개의 열을 갖습니다. 동일한 수의 기능이 남아 있다고 가정 할 때 기계 학습 및 자연어 처리에 낮은 순위 근사치가 어떻게 유용 할 수 있습니까?


2
그들은 일반적으로 희소 표현을 가지고 있습니다-당신은 낮은 순위 근사 를 위해 숫자 를 저장할 필요가 없습니다 . 예를 들어, 순위 1 근사값에는 숫자 가 필요 합니다. 미디엄+미디엄
probabilityislogic

답변:


16

낮은 순위 근사치 의 와 같은 행렬 제곱근으로 분해 될 수 의 고유 분해 인 이므로 피처 수를 줄입니다. 이는 랭크 -r 근사를 기반으로 로 로 표시 할 수 있습니다 . 아래 첨자엑스^엑스=아르 자형λ아르 자형12엑스λ엑스^=아르 자형 는 근사에 사용되는 고유 벡터의 수와 고유 값을 나타냅니다. 따라서 데이터를 나타내는 기능의 수를 줄입니다. 일부 예에서, 직교성, 비 음성 (비 음성 매트릭스 인수 분해) 등과 같은 특수한 제한 조건 하에서, 낮은 순위 근사값은 원본 데이터의 기본 또는 잠재 변수 (사전) 기반 확장으로 간주됩니다.


5

낮은 순위 근사 점은 치수 축소를 수행하기위한 것이 아닙니다.

아이디어는 도메인 지식을 기반으로 매트릭스의 데이터 / 항목이 어떻게 든 매트릭스를 낮은 순위로 만들 것입니다. 그러나 엔트리가 노이즈, 손상, 결 측값 등에 영향을받지 않는 이상적인 경우입니다. 관찰 된 매트릭스는 일반적으로 훨씬 높은 순위를 갖습니다.

따라서 낮은 순위 근사는 "원본"(노이즈 등으로 엉망이되기 전에 "이상적인"매트릭스)을 복구하는 방법입니다. 즉, 가장 일관된 매트릭스를 찾습니다 (관찰 된 항목의 관점에서) 전류 행렬과 함께 낮은 순위를 가지므로 이상적인 행렬에 대한 근사치로 사용할 수 있습니다. 이 매트릭스를 복구 한 후 노이즈 버전을 대신하여 더 나은 결과를 얻을 수 있습니다.


4

지금까지 언급되지 않은 두 가지 이유 :

  1. 공선 성 감소. 이러한 기술의 대부분은 공선 성을 제거하여 후속 처리에 도움이 될 수 있다고 생각합니다.

  2. 우리의 상상력은 순위가 낮으므로 순위가 낮은 관계를 탐색하는 데 도움이 될 수 있습니다.


3

근사 순위 ( )를 결정한 후에 는 원래 아니라 향후 사용을 위해 기준 벡터 만 유지합니다 (예 : 회귀 또는 분류 문제의 예측 변수) .아르 자형<미디엄아르 자형미디엄


1

"현대 다변량 통계 기법 (Izenman)"에 따르면, 감소 된 순위 회귀는 PCA, 요인 분석, 표준 변동 및 상관 분석, LDA 및 대응 분석을 포함한 특수한 사례로 몇 가지 흥미로운 방법을 다룹니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.