협업 필터링을위한 벤치 마크 데이터 세트


9

협업 필터링을 위한 새로운 알고리즘을 테스트하고 싶습니다 . 일반적인 사용 사례는 특정 사용자와 유사한 사용자의 환경 설정을 기반으로 영화를 추천하는 것입니다.

연구원들이 알고리즘을 테스트하기 위해 자주 사용하는 일반적인 벤치 마크 데이터 세트는 무엇입니까? Computer Vision 내에서 사람들은 종종 MNIST 또는 CIFAR을 사용하지만 협업 필터링을위한 유사한 데이터 세트를 찾지 못했습니다.


1
Netflix 상품 데이터 세트를 살펴 보셨습니까? 예, 경쟁이 오래되었으며 일부 개인 정보 보호 이유로 공식 웹 사이트에서 가져 왔습니다. 여전히 다른 위치에서 찾을 수 있습니다.
Vladislavs Dovgalecs 2016 년

Kaggle.com에는 무리가 있습니다. 'recommendation in : dataset'또는 'recommendation in : competition'을 검색하십시오.
ran8

답변:


8

명백한 대답은 Netflix 상금 데이터 세트 일 것입니다. 많은 연구가 진행되었으며 대부분의 CF 알고리즘에 점수가 알려져 있습니다.

일반적으로 벤치 마크로 사용되는 다른 사용 가능한 데이터 세트가 있습니다.

  • 영화 렌즈 데이터 세트 : CF 알고리즘 벤치마킹에 사용되는 2 천만 등급 데이터 세트;

  • Jester Dataset : 6 백만 개 이상의 등급을 가진 농담 추천 데이터 세트;

  • 링크 에서 더 많은 데이터 세트를 찾을 수 있습니다


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.