공동 필터링 / 추천 시스템에 비음 수가 중요한 이유는 무엇입니까?


11

내가 본 모든 현대 추천 시스템에서 행렬 인수 분해에 의존하는 것은 음수가 아닌 행렬 인수 분해가 사용자 영화 행렬에서 수행됩니다. 비 음성이 왜 해석 성 및 / 또는 희소 요인을 원하는지 이해하는 이유를 이해할 수 있습니다. 그러나 넷플릭스 상 경쟁에서와 같이 예측 성능에만 관심이 있다면 왜 부정이 아닌 제한을 적용해야합니까? 인수 분해에서 음수 값을 허용하는 것보다 엄격히 나쁜 것 같습니다.

이 논문 은 협업 필터링에서 음이 아닌 행렬 인수 분해를 사용하는 것에 대한 인용이 매우 높은 예입니다.


1
추천 시스템에 익숙하지 않습니다 (아마도 질문에 예제 논문을 포함시킬 수 있습니까?). NNMF 기본 설정의 패턴이 사실이면 가장 일반적인 대답은 일반화 가능성을 높이는 것입니다. 즉, 경험적으로 "해석 가능성 / 스파 스"의 부족과 관련된다 할 수있다 이상의 피팅을 . 그러나 희소 코딩 (즉, L1 정규화 / LASSO)은 내가 아는 한 이러한 요구 사항을 충족시킬 수 있습니다. (NNMF의 해석 성이 더 높을 수 있습니다.)
GeoMatt22

답변:


14

추천 시스템 전문가는 아니지만이 질문의 전제는 잘못된 것입니다.

비 음성은 공동 필터링에 중요하지 않습니다.

Netflix상은 BellKor 팀이 2009 년에 수상했습니다. 다음은 알고리즘을 설명하는 논문 입니다. Netflix Prize에 대한 BellKor 2008 솔루션 . 쉽게 알 수 있듯이 SVD 기반 접근 방식을 사용합니다.

2008 년 진행 과정의 기초는 KDD 2008 보고서에 정리되어 있습니다 [4]. [...] 논문 [4]에서 우리는 세 가지 요소 모델에 대한 자세한 설명을 제공합니다. 첫 번째는 간단한 SVD입니다 [...] 두 번째 모델 [...] 우리는이 모델을 "비대칭 -SVD"라고합니다. 마지막으로,보다 정확한 요인 모델은 "SVD ++"로 명명됩니다 ...]

추천 팀을위한 동일한 팀 매트릭스 인수 분해 기법에 의한이 인기있는 글쓰기도 참조하십시오 . 그들은 SVD에 대해 많이 이야기하지만 NNMF는 언급하지 않습니다.

이 인기 블로그 게시물 인 Netflix 업데이트 : 2006 년부터 가정 에서 사용해보십시오 . SVD 아이디어도 설명합니다.

물론 당신은 옳고 협업 필터링을 위해 NNMF를 사용하는 작업도 있습니다. 그렇다면 SVD 또는 NNMF가 더 잘 작동합니까? 잘 모르겠지만 다음은 2012 년 의 협업 필터링 알고리즘대한 비교 연구의 결론입니다 .

행렬 계수 기반 방법은 일반적으로 가장 높은 정확도를 갖습니다. 특히, 정규화 된 SVD, PMF 및 그 변형은 NMF가 최고의 성능을 발휘하는 매우 드문 상황을 제외하고 MAE 및 RMSE에 이르기까지 가장 성능이 우수합니다.


2
일반적으로 이것은 좋은 대답입니다. 그러나 일부 사실을 바로 잡기 위해 BellKor 2008 솔루션이 진행상을 수상했습니다. 전체적인 승리 알고리즘은 100 개 이상의 예측 변수가 혼합 된 것입니다 (Töscher et al. 2009). NMF도 그 일부였습니다.
dpelisek
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.