음이 아닌 행렬 분해에서 최적의 잠재 요인 수를 선택하는 방법은 무엇입니까?

매트릭스 주어 $\mathbf V^{m \times n}$ , 음수가 아닌 매트릭스 인수 분해 (NMF)는 두 개의 음수가 아닌 행렬 찾은 $\mathbf W^{m \times k}$ 및 $\mathbf H^{k \times n}$ (즉, 모든 요소 $\ge 0$ )으로 분해 된 매트릭스를 나타내는 :

V \approx W H,

$\mathbf V \approx \mathbf W\mathbf H,$

예를 들어, 음이 아닌 $\mathbf W$ 와 $\mathbf H$ 는 재구성 오류 최소화해야합니다

‖ V - W H ‖^{2} .

$\|\mathbf V-\mathbf W\mathbf H\|^2.$

NMF 에서 숫자 를 추정하는 일반적인 관행이 있습니까? 예를 들어, 그러한 목적으로 교차 검증을 어떻게 사용할 수 있습니까? $k$

— 스티브 세일러
소스

나는 인용이 없으며 (실제로 구글 학자에 대한 빠른 검색을 수행하고 찾지 못했습니다) 교차 검증이 가능해야한다고 생각합니다.

— amoeba는 Reinstate Monica

NMF에 대한 교차 검증을 수행하는 방법에 대한 자세한 내용을 알려주시겠습니까? Frobenius Norm의 K 값은 K 수가 증가함에 따라 항상 감소합니다.

— Steve Sailer

NMF는 무엇을하고 있습니까? 저 차원 공간에서

를 나타내 거나 (감독되지 않은) 권장 사항을 제공하는 것 입니까 (감독 된). 당신의

는 얼마나 큽 니까? 특정 비율의 분산을 설명해야합니까? 목표 메트릭을 정의한 후 CV를 적용 할 수 있습니다. 응용 프로그램을 생각하고 의미가있는 메트릭을 찾는 것이 좋습니다.

V

$V$

V

$V$

— 무식한

답변:

음이 아닌 행렬 분해에서 최적의 잠재 요인 수를 선택하려면 교차 검증을 사용하십시오.

NMF의 목표는 음이 아닌 모든 요소를 사용하여 재구성 오류 최소화하는 저 차원 $\mathbf W$ 및 $\mathbf H$ 를 찾는 것입니다 . 한 요소 ( 예 : )를 제외하고 하나의 누락 된 셀로 결과 행렬의 NMF를 수행 한다고 상상해보십시오 . 이는 모든 비결 측 셀에서 재구성 오류를 최소화하는 및 찾는 것을 의미 합니다. $\|\mathbf V-\mathbf W\mathbf H\|^2$ $\mathbf V$ $V_{ab}$ $\mathbf W$ $\mathbf H$

\sum_{i j \neq a b} (V_{i j} - [W H]_{i j})^{2} .

$\sum_ {ij\ne ab} (V_{ij}-[\mathbf W\mathbf H]_{ij})^2.$

이것이 완료되면, 우리는 탈락 소자 예측할 수 $V_{ab}$ 계산하여 $[\mathbf W\mathbf H]_{ab}$ 상기 예측 에러가 계산

e_{a b} = (V_{a b} - [W H]_{a b})^{2} .

$e_{ab}=(V_{ab}-[\mathbf W\mathbf H]_{ab})^2.$ 하나는 모든 요소를두고이 절차를 반복 할 수

V_{a b}

$V_{ab}$ 하고 모든

a

$a$ 및

b

$b$ 대한 예측 오류를 요약 할 수 있습니다. 결과적으로 전체 PRESS 값 (예측 잔차 제곱합)이 발생합니다.

E (k) = \sum_{a b} e_{a b}

$E(k)=\sum_{ab}e_{ab}$ 는

k

$k$ 의존합니다. 희망적으로 함수

E (k)

$E(k)$ 는 '최적'

k

$k$ 로 사용할 수있는 최소값을 갖습니다.

NMF는 각 왼쪽 값에 대해 반복되어야하고 프로그래밍하기 까다로울 수 있기 때문에 계산 비용이 많이들 수 있습니다 (결 측값으로 NMF를 수행하는 것이 얼마나 쉬운 지에 따라). PCA에서는 $\mathbf V$ 전체 행을 생략 하여이 문제를 해결할 수 있습니다 (계산을 많이 가속화 함). 주요 구성 요소의 수를 결정하기 위해 PCA에 대한 교차 유효성 검사를 수행하는 방법의 내 답변을 참조하십시오 . 하지만 여기서는 불가능합니다.

물론 교차 검증의 모든 일반적인 원칙이 여기에 적용되므로 한 번에 하나의 셀 대신 여러 셀을 제외하고 모든 셀을 반복하는 대신 임의의 셀에 대해서만 절차를 반복 할 수 있습니다. 두 가지 방법 모두 프로세스 가속화에 도움이 될 수 있습니다.

편집 (2019 년 3 월) : 이 아주 좋은 그림 쓰기 업에 의해 참조 @AlexWilliams : http://alexhwilliams.info/itsneuronalblog/2018/02/26/crossval를 . Alex는 결 측값이있는 NMF에 https://github.com/kimjingu/nonnegfac-python 을 사용 합니다.

— 아메바의 말에 따르면 복원 모니카
소스

내 지식으로는 두 가지 좋은 기준이 있습니다 : 1) cophenetic 상관 계수 및 2) 일련의 순위에 대한 무작위 데이터와 제곱의 잔차 합 비교 (이름이있을 수도 있지만 기억하지 못합니다)

공역 상관 계수 : 순위 당 여러 번 NMF를 반복하고 결과가 얼마나 유사한 지 계산합니다. 다시 말해, 초기 시드가 임의적이라는 것을 감안할 때 식별 된 군집이 얼마나 안정적입니까? 공역 계수가 떨어지기 전에 가장 높은 K를 선택하십시오.
무작위 데이터에 대한 RSS 차원 축소 방법의 경우 항상 원본 데이터 (RSS로 추정)와 비교하여 정보가 손실됩니다. 이제 K를 높이기 위해 NMF를 수행하고 원래 데이터 세트와 무작위 데이터 세트로 RSS를 계산하십시오. K의 함수에서 RSS를 비교할 때 RSS는 원래 데이터 세트에서 K가 증가함에 따라 감소하지만, 무작위 데이터 세트의 경우에는 해당되지 않습니다. 두 경사를 비교하여 교차점에 K가 있어야합니다. 다시 말해, 소음이 발생하기 전에 얼마나 많은 정보를 잃을 수 있는가 (= 가장 높은 K)입니다.

내가 충분히 명확했으면 좋겠다.

편집 : 그 기사를 찾았습니다.

1. 장 -P. Brunet, Pablo Tamayo, Todd R. Golub 및 Jill P. Mesirov. 매트릭스 분해를 이용한 메타 유전자 및 분자 패턴 발견. 미국 국립 과학원 논문집, 101 (12) : 4164-4169, 2004.

2. Attila Frigyesi 및 Mattias Hoglund. 복잡한 유전자 발현 데이터의 분석을위한 비 음성 매트릭스 분해 : 임상 적으로 관련된 종양 아형의 확인. 암 정보학, 6 : 275-292, 2008.

— 장 폴 압부 엘
소스

K가 작을 때 무작위 데이터의 RSS가 원래 데이터로 계산 된 RSS보다 왜 낮아야하는지는 분명하지 않습니다. 나머지는 임의의 RSS가 원래 데이터의 RSS보다 느리게 감소해야한다는 것을 이해합니다.

— Malik Koné 2014

NMF 인수 분해에서 매개 변수 ( 대부분의 문헌에서 로 표시)는 의 근사값이며 이되도록 선택 됩니다. 매개 변수의 선택 은 열로 구성된 과도하게 데이터 의 표현을 결정합니다 . 는 . 결과는 행렬의 순위 와 의 상한이 $k$ $r$ $V$ $k < \text{min}(m, n)$ $V$ $W$ $w_i \text{ , } i = 1, 2, \cdots, k$ $W$ $H$ 생성물전술 한 기본 벡터로부터가 생성 / 스팬 될 수. $k$ 낮은 순위 근사치 ; 또한 . 따라서,의 선택 어디 차원 축소 구성한다 $WH$ $V$ $k$ $k < \text{min}(m, n)$ $V$

자세한 내용은 이 책의 6 장에서 확인할 수 있습니다 S. Theodoridis와 K. Koutroumbas .

하여 최소화 후 선택 에 대한 비용 함수 및 의 최적 선택 ( 경험적으로 선택 주어야 상이한 특징 서브 스페이스와 협력하여) 의 근사치 초기 데이터 행렬을 나타내는 기능, . $W$ $H$ $k$ $V^*$ $V$ $V$

상기 의미에서 상이한 특징 서브 스페이스 작업 열 수 , 인 NMF 서브 공간의 기저 벡터의 수. 그리고 다른 값으로 실험적으로 작업하는 것은 다른 차원의 축소 된 형상 공간으로 작업하는 것과 매우 유사합니다. $k$ $W$ $k$

— 질
소스

그러나 문제는 최적의

를 선택하는 방법에 관한 것이 었습니다 ! 그것에 대한 통찰력을 제공 할 수 있습니까?

k

$k$

— amoeba는

@amoeba 초기 질문을 잘못 읽지 않으면 " NMF 의 숫자

를 추정하는 일반적인 관행 이 있습니까?"입니다. 최적의

는 경험적 으로 선택 됩니다. 나는 대답을 확장했다.

k

$k$

k

$k$

— Gilles

NMF 인수 분해에 대한 설명은 전체적으로 의미가 있지만 초기 질문은 k를 추정하는 일반적인 관행에 관한 것입니다. 이제 다른 기능 하위 공간으로 작업함으로써 k "임시"(좋아)를 선택할 수 있다고 썼습니다. "다른 기능 하위 공간으로 작업"이 무엇을 의미하는지 잘 모르겠습니다. 확장 할 수 있습니까? 그들과 어떻게 협력해야합니까 ?? k를 선택하는 방법은 무엇입니까? 이것이 (적어도 내가 이해 한대로) 질문에 관한 것입니다. 내 downvote를 되 돌리게되어 기쁩니다!

— amoeba는 Reinstate Monica

k

$k$

k

$k$