데이터 과학의 최종 과정 프로젝트를 위해 다음을 제안했습니다.
Amazon Reviews Dataset을 제공하면 Amazon 에 광고를 배치하기위한 전략적 위치를 결정하는 알고리즘 (대략 개인화 된 PageRank 기반)을 제시 할 계획입니다. 예를 들어 아마존에는 수백만 개의 제품이 있습니다. 그리고 데이터 세트는 어떤 제품이 관련되어 있는지, 어떤 제품이 모여서 함께 보았는지 등에 대한 아이디어를 제공합니다. 14 년 이 모든 정보를 사용하여 아마존에서 제품을 평가 / 순위 화합니다. 이제 제품 페이지에 대한 트래픽을 개선하려는 Amazon 공급 업체입니다. Google 알고리즘은 최대 트래픽을 유도 할 수 있도록 광고를 게재 할 수있는 그래프의 전략적 위치를 식별하는 데 도움이됩니다.
교수님의 질문은 실제 사용자없이 알고리즘을 어떻게 검증 할 것인가입니다. 우리가 말했다-
고정 된 사용자 집합을 모델링 할 수 있습니다. 일부 사용자는 따라
also_bought
하고also_viewed
첫 번째 나 다섯 번째 홉보다 더 자주 세 번째 홉에 대한 링크. 사용자의 행동은 일반적으로 배포됩니다. 일부 다른 사용자는 첫 번째 홉 이상을 거의 탐색하지 않습니다. 이 사용자 행동 세트는 기하 급수적으로 분산됩니다.
교수님의 말-사용자가 어떤 배포를하더라도 비슷한 제품에 대한 링크를 사용하여 탐색하고 있습니다. 순위 알고리즘은 또한 제품 순위를 매기는 유사성 b / w 2 제품을 고려합니다. 따라서이 유효성 검사 알고리즘을 사용하는 것이 cheating
좋습니다. 알고리즘에보다 현실적이고 직교하는 다른 사용자 행동이 있습니다.
사용자 행동을 모델링하는 방법에 대한 아이디어가 있습니까? Algo에 대한 자세한 내용을 알려 드리겠습니다.