사용자가 모든 항목의 일부만 볼 수있는 상황에 대한 권장 엔진은 무엇입니까?


9

문서 관리 시스템에 추천 기능을 추가하고 싶습니다 . 대부분의 회사 문서가 저장되는 서버입니다. 직원은 웹 인터페이스를 탐색하고 클릭하여 원하는 문서를 다운로드하거나 온라인으로 읽습니다.
각 직원은 모든 문서의 하위 집합에만 액세스 할 수 있습니다.

직원은 모든 문서의 일부에만 액세스 할 수 있습니다

내 목표 : 팀원이 최근에 열어 본 문서 나 방금 연 문서의 부속물로 사용되는 스프레드 시트 또는 읽을 내용을 직원에게 추천합니다.

공개적으로 사용 가능한 데이터 (모든 Netflix 사용자가 모든 영화를 볼 수 있음)에 대한 권장 엔진이 많이 있지만 여기의 상황은 특별합니다. 각 직원은 모든 문서의 일부만 허가하는 반면 Netflix에서는 모든 사용자가 모든 영화에 액세스 할 수 있습니다.

: Employee1은 DocumentA를 읽을 수 있지만 DocumentB는 읽을 수 없습니다. Employee2는 둘 다 읽을 수 있고 Employee3은 읽을 수 없습니다.

물론, 나는 직원에게 접근 권한이없는 문서를 추천해서는 안됩니다. 또한 문서에 액세스하는 직원의 상황에서만 문서의 인기를 고려해야한다고 생각합니다. 일을 더욱 복잡하게하기 위해 직원은 때때로 프로젝트에서 다른 프로젝트로 이동하여 액세스 권한이있는 문서에 영향을줍니다.

  • 이런 종류의 문제에 대한 이름이 있습니까?
  • 보다 일반적인 문제로 정밀도 / 효율 손실없이 줄일 수 있습니까?
  • 그렇지 않다면 이런 종류의 문제에 어떤 접근 방식이 효과적입니까?

참고 : Netflix와 같은 추천 엔진으로는 충분하지 않습니다. 10 명의 직원 (나 포함) 만 액세스 할 수있는 경우 50 개의보기가있는 문서가 눈에 잘 띄어 야하지만 1 억 명의 직원이 액세스 할 수있는 경우 눈에 띄지 않아야합니다.

필요한 경우 다음과 같은 몇 가지 데이터 관련 사항이 있습니다. 평균 회사에는 1000 명의 직원, 약 10000 개의 문서가 있으며 직원은 하루에 약 5 개의 문서를 클릭합니다. 각 프로젝트에는 평균 10 명의 직원이 액세스 할 수 있으며 약 100 개의 문서가 있습니다. 각 직원은 평균 5 개의 프로젝트를 동시에 진행합니다.

답변:


1

두 가지를 별도로 해결해야한다고 생각합니다.

먼저 시스템의 사용자에 대한 액세스 제어 권한이 있어야합니다. 각 사용자 및 파일에 액세스 토큰을 첨부 할 수 있습니다. 처리하기 전에 파일 데이터베이스를 필터링하십시오.

둘째, 제안하는 문서의 순위를 매기면 현재 브라우징 사용자에 비해 문서 무게와 사용자 무게에 약간의 무게가 있습니다.

예를 들어 문서 무게와 사용자 무게는 다음과 같이 생각할 수 있지만 시스템에 따라 훨씬 더 복잡 할 수 있습니다.

DocumentWeight = Number of Views/ Number of Users can Access
UserWeight = ## Relative to browsing user- Users in similar project will have higher weights

DocumentScore = Sum over all viewed users{DocumentWeight x UserWeight}

문서의 순위를 지정할 수 있습니다. 그러면 필요한 문서가 통계적으로 표시됩니다. 이것이 도움이되기를 바랍니다.


0

귀하의 설명에서, 나는 당신이 협업 필터링 이라는 방법을 찾는 것이 좋습니다 . 기본적으로 문서의 모든보기 / 다운로드는 일부 항목에 대한 긍정적 인 피드백으로 취급 한 다음 유사한 문서를보고있는 사용자에게 해당 항목을 권장 할 수 있습니다.

숨겨진 결과의 필터링은 사용자별로 수행해야합니다 (가능한 모든 제안을 찾을 수 있지만 사용자가 볼 수있는 제안 만 출력).


그런 일반적인 방법으로는 충분하지 않다고 생각합니다. 10 명의 직원 (나 포함) 만 액세스 할 수있는 경우 50 개의 뷰가있는 문서가 눈에 띄어 야하지만 1 억 명의 직원이 액세스 할 수있는 경우 눈에 띄지 않아야합니다.
Nicolas Raoul

나는 방법이 아니라 일반적인 생각을 설명했다. 협업 필터링은 더 복잡하고 내가 제공 한 링크는 좋은 진입 점이며, 다른 구현 및 접근 방식을 검색하고 특정 데이터 특정에 가장 적합한 것을 찾을 수 있습니다.
chewpakabra

내 질문에 내 데이터 세부 사항을 명확하게 설명했습니까? 그렇지 않은 경우 특정 접근 방식을 권장하기 전에 필요한 정보를 요청하십시오. 고마워 :-)
Nicolas Raoul 1

내가 혼란스럽게 생각하는 것은 10000 뷰의 문서가 권장 사항으로 표시 할 가치가 없으며 50 뷰의 문서가 괜찮은 이유에 대한 명확한 아이디어가 없다는 것입니다. 100은 어때요? 아니면 51? 시청률이 관련이없는 명확한 비율의 잠재 고객이있는 경우 이러한 사례를 교육 세트에서 제외하고 공동 접근 방식을 계속 사용할 수 있습니다. 그렇지 않은 경우 어떤 종류의 분류 또는 클러스터 화 문제가있을 수 있으며 이는보다 광범위한 주제입니다.
chewpakabra

10000 숫자는 어디에서 왔습니까? 당신이 100000을 의미했다면, 나는 충분히 명확하지 않았다. 즉, 첫 번째 문서는 해당 문서를 볼 수있는 권한이있는 사람이 평균 10 번을 보았지만 두 번째 문서는 해당 문서를 볼 수있는 권한을 가진 사람이 평균 0.0005 번만 보았습니다.
Nicolas Raoul

0

대규모 데이터 세트 마이닝 328 페이지를 살펴보면 추천 시스템에서 일반적으로 사용되는 SVD로 연결됩니다.


언급 한 페이지는 차원 축소에 대한 다양한 일반 사항을 소개합니다. 위의 질문에 적용되는 내용을 요약 해 주시겠습니까? 고마워요!
Nicolas Raoul

예; 그것은 권장 사항에 SVD를 사용하는 방법을 보여줍니다
Drey
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.