매트릭스 주어 , 음수가 아닌 매트릭스 인수 분해 (NMF)는 두 개의 음수가 아닌 행렬 찾은 및 (즉, 모든 요소 )으로 분해 된 매트릭스를 나타내는 :
예를 들어, 음이 아닌 와 는 재구성 오류 ” V - W H ” 2를 최소화해야합니다 .
NMF 에서 숫자 를 추정하는 일반적인 관행이 있습니까? 예를 들어, 그러한 목적으로 교차 검증을 어떻게 사용할 수 있습니까?
매트릭스 주어 , 음수가 아닌 매트릭스 인수 분해 (NMF)는 두 개의 음수가 아닌 행렬 찾은 및 (즉, 모든 요소 )으로 분해 된 매트릭스를 나타내는 :
예를 들어, 음이 아닌 와 는 재구성 오류 ” V - W H ” 2를 최소화해야합니다 .
NMF 에서 숫자 를 추정하는 일반적인 관행이 있습니까? 예를 들어, 그러한 목적으로 교차 검증을 어떻게 사용할 수 있습니까?
답변:
음이 아닌 행렬 분해에서 최적의 잠재 요인 수를 선택하려면 교차 검증을 사용하십시오.
NMF의 목표는 음이 아닌 모든 요소를 사용하여 재구성 오류 ” V - W H ” 2를 최소화하는 저 차원 및 를 찾는 것입니다 . V의 한 요소 ( 예 : V a b )를 제외하고 하나의 누락 된 셀로 결과 행렬의 NMF를 수행 한다고 상상해보십시오 . 이는 모든 비결 측 셀에서 재구성 오류를 최소화하는 W 및 H를 찾는 것을 의미 합니다. ∑ i j ≠ a
이것이 완료되면, 우리는 탈락 소자 예측할 수 계산하여 상기 예측 에러가 계산
NMF는 각 왼쪽 값에 대해 반복되어야하고 프로그래밍하기 까다로울 수 있기 때문에 계산 비용이 많이들 수 있습니다 (결 측값으로 NMF를 수행하는 것이 얼마나 쉬운 지에 따라). PCA에서는 전체 행을 생략 하여이 문제를 해결할 수 있습니다 (계산을 많이 가속화 함). 주요 구성 요소의 수를 결정하기 위해 PCA에 대한 교차 유효성 검사를 수행하는 방법의 내 답변을 참조하십시오 . 하지만 여기서는 불가능합니다.
물론 교차 검증의 모든 일반적인 원칙이 여기에 적용되므로 한 번에 하나의 셀 대신 여러 셀을 제외하고 모든 셀을 반복하는 대신 임의의 셀에 대해서만 절차를 반복 할 수 있습니다. 두 가지 방법 모두 프로세스 가속화에 도움이 될 수 있습니다.
편집 (2019 년 3 월) : 이 아주 좋은 그림 쓰기 업에 의해 참조 @AlexWilliams : http://alexhwilliams.info/itsneuronalblog/2018/02/26/crossval를 . Alex는 결 측값이있는 NMF에 https://github.com/kimjingu/nonnegfac-python 을 사용 합니다.
내 지식으로는 두 가지 좋은 기준이 있습니다 : 1) cophenetic 상관 계수 및 2) 일련의 순위에 대한 무작위 데이터와 제곱의 잔차 합 비교 (이름이있을 수도 있지만 기억하지 못합니다)
공역 상관 계수 : 순위 당 여러 번 NMF를 반복하고 결과가 얼마나 유사한 지 계산합니다. 다시 말해, 초기 시드가 임의적이라는 것을 감안할 때 식별 된 군집이 얼마나 안정적입니까? 공역 계수가 떨어지기 전에 가장 높은 K를 선택하십시오.
무작위 데이터에 대한 RSS 차원 축소 방법의 경우 항상 원본 데이터 (RSS로 추정)와 비교하여 정보가 손실됩니다. 이제 K를 높이기 위해 NMF를 수행하고 원래 데이터 세트와 무작위 데이터 세트로 RSS를 계산하십시오. K의 함수에서 RSS를 비교할 때 RSS는 원래 데이터 세트에서 K가 증가함에 따라 감소하지만, 무작위 데이터 세트의 경우에는 해당되지 않습니다. 두 경사를 비교하여 교차점에 K가 있어야합니다. 다시 말해, 소음이 발생하기 전에 얼마나 많은 정보를 잃을 수 있는가 (= 가장 높은 K)입니다.
내가 충분히 명확했으면 좋겠다.
편집 : 그 기사를 찾았습니다.
1. 장 -P. Brunet, Pablo Tamayo, Todd R. Golub 및 Jill P. Mesirov. 매트릭스 분해를 이용한 메타 유전자 및 분자 패턴 발견. 미국 국립 과학원 논문집, 101 (12) : 4164-4169, 2004.
2. Attila Frigyesi 및 Mattias Hoglund. 복잡한 유전자 발현 데이터의 분석을위한 비 음성 매트릭스 분해 : 임상 적으로 관련된 종양 아형의 확인. 암 정보학, 6 : 275-292, 2008.
NMF 인수 분해에서 매개 변수 ( 대부분의 문헌에서 r 로 표시)는 V 의 근사값이며 k < min ( m , n ) 이되도록 선택 됩니다. 매개 변수의 선택 은 W 열로 구성된 과도하게 데이터 V 의 표현을 결정합니다 . 는 승 나 , 나는 = 1 , 2 , ⋯ , 케이 . 결과는 행렬의 순위 W 와 H 의 상한이 생성물전술 한 기본 벡터로부터가 생성 / 스팬 될 수. 낮은 순위 근사치 V ; 또한 k . 따라서,의 선택 K < 분 ( m , N은 ) 어디 차원 축소 구성한다 V를
자세한 내용은 이 책의 6 장에서 확인할 수 있습니다 S. Theodoridis와 K. Koutroumbas .
하여 최소화 후 선택 에 대한 비용 함수 및 H 의 최적 선택 K ( 경험적으로 선택 주어야 상이한 특징 서브 스페이스와 협력하여) V * 의 근사치 V를 초기 데이터 행렬을 나타내는 기능, V .
상기 의미에서 상이한 특징 서브 스페이스 작업 열 수 W를 , 인 NMF 서브 공간의 기저 벡터의 수. 그리고 k의 다른 값으로 실험적으로 작업하는 것은 다른 차원의 축소 된 형상 공간으로 작업하는 것과 매우 유사합니다.