사용 가능한 사용자 제품 긍정적 (클릭 데이터) 부정 클릭 데이터를 생성하는 방법은 무엇입니까?


10

권장 사항에 따르면 "클릭"과 같이 레이블이있는 사용자 제품 데이터가있는 것이 일반적입니다. 모델을 배우려면 클릭 앤 클릭 데이터가 필요합니다.

생성하는 가장 간단한 방법은 클릭 데이터에서 찾을 수없는 사용자 제품 쌍을 취하는 것입니다. 그러나 오해의 소지가 있습니다. 예:

user1, product1 (click) user2, product2 (click) user2, product3 (click) user3, product2 (click)

product1을 제외한 모든 제품에서 user1을 가져 와서 "no_click"등으로 레이블을 지정할 수 있습니다. 그러나 이것은 사실이 아닐 수도 있습니다. product1이 product2로 표시되면 user1이 product2를 클릭했을 수 있습니다. 그러나 다른 제품 세트가 표시 되었기 때문에 product2를 클릭 / 클릭하지 않기로 결정할 기회가 없었습니다.

단항 데이터 문제를 해결하는 방법은 무엇입니까?


1
나는 당신이 당신의 자신의 질문에 대답했다고 생각합니다. 인상 또는 쇼의 개념을 기록해야합니다. 제품을 보여 주었고 클릭이 없었 으면 이것이 당신이 찾고있는 것입니다.

그러나 실제로는 기록 된 데이터에서 사용할 수 없습니다. 그게 내가 언급 한 것입니다. 데이터에는 클릭 라벨이있는 사용자 제품 쌍만 포함됩니다. 표시된 것과 클릭 한 것은 기록되지 않습니다.
p.paliwal

또한, user1에 prod1, prod2, prod3이 표시되고 (prod1을 클릭 한 경우)-prod2 및 prod3이있는 user1에는 클릭 레이블이 없습니다. 그러나 나머지 제품 (prod4, prod5, ...)은 어떻습니까? 표시되지 않았기 때문에 사용자는 클릭 / 노 클릭을 결정할 기회가 없었습니다. 이것은 사용자가 표시되지 않은 제품에 관심이 있는지 여부를 나타내지 않으므로 클릭하지 않는 다른 모든 조합의 라벨은 실제로 사실이 아닐 수 있습니다. 이것 또한 내가 문제의 설명입니다.
p.paliwal

답변:


6

따라서 두 가지 문제가 있습니다.

  1. 노출 수 기록 (쇼)
  2. 비노출을 처리하는 방법

(1)의 경우이 정보를 기록 해야 합니다. 현재 기록되지 않은 경우이 정보 기록을 시작해야합니다. 이 정보가없는 경우 권장 사항을 제공하십시오. 다행히도 클릭 데이터만으로도 유틸리티 매트릭스를 만들 수 있습니다 (9.1.1 참조).

http://i.stanford.edu/~ullman/mmds/ch9.pdf

그런 다음 백서에 설명 된대로 사용자 기반 또는 항목 기반 협업 필터링을 사용할 수 있습니다. 이것은 기본적으로 유틸리티 매트릭스를 채우고 클릭하지 않은 항목에 대한 "점수"를 찾으려고하는 연습입니다. 가장 높은 점수를받은 클릭하지 않은 항목을 추천합니다.

(2)의 경우에도 클릭하지 않은 항목에 대한 권장 사항이 있습니다. 따라서 이것만으로는 문제가되지 않습니다. 그러나 노출을 최적화하고 싶을 것입니다. 또한 사용자가 가능한 모든 옵션을 볼 수있는 위치를 완전히 알 수 없습니다. 인상을 기록하고 많은 것을 이해해야합니다.

  • 품목의 쇼율
  • 항목의 클릭률
  • 새로운 아이템을 통합하는 방법
  • 표시 할 항목을 최적화하는 방법

이것은 큰 주제이며 기본적으로 이것은 온라인 광고의 문제 영역입니다. 그러나 추천 엔진은 광고 최적화와는 약간 다른 롱테일에서 관심있는 항목을 찾으려고합니다. 추천을 평가하기위한 피드백 루프입니다. A / B 테스트가 일반적입니다. 현재 시스템과 새 시스템 간의 클릭률 및 권장 오류를 테스트하려고합니다.

여기도 참조하십시오.

http://cs.brynmawr.edu/Courses/cs380/fall2006/Herlocker2004.pdf

http://www.cs.umd.edu/~samir/498/Amazon-Recommendations.pdf

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.