누군가가 이미지를 좋아할 확률


11

나는 다음과 같은 문제가 있습니다 :
-우리는 N 명
세트-우리는 K 이미지 세트가 있습니다
-각 사람은 몇 장의 이미지를 평가합니다. 사람은 이미지를 좋아하거나 좋아하지 않을 수 있습니다 (이 둘은 유일한 가능성입니다). -문제는 어떤 사람이 특정 이미지를 좋아할 가능성을 계산하는 방법입니다.

직관을 제시하는 예를 들어 보겠습니다.
N = 4
K = 5
+는 사람이 이미지를 좋아
한다는 것을 의미합니다.-사람이 이미지를 좋아하지 않음을
의미한다는 것은 사람이 이미지에 대해 묻지 않았 음을 의미하며 그 값을 예측해야합니다

x 1 2 3 4 5    
1 + - 0 0 +   
2 + - + 0 +  
3 - - + + 0  
4 - 0 - - -

사람 2는 비슷한 환경 설정을 가지고 있고 사람 2는 이미지 3을 좋아하기 때문에 아마도 이미지 3을 좋아할
것입니다. 사람 4는 다른 사람이 그것을 좋아하지 않으며 또한 사람 4는 대부분의 이미지를 좋아하지 않기 때문에 이미지 2를 좋아하지 않을 것입니다.

그러한 가능성을 계산하는 데 사용할 수있는 잘 알려진 방법이 있습니까?


제한된 경험을 바탕으로 정확한 답변을 드릴 수 없습니다. 그러나 logit과 함께 패널 데이터를 사용할 수 있다고 생각합니다 (개인 및 개인 간 예제 변형을 고려하기 때문에). 아마 다른 사람들이 이것에 대해 자세히 설명 할 수 있습니다.
teucer

작은 예제는 매우 유용하지만 실제 데이터 세트가 더 크다고 가정합니다. 실제 Nk의 크기는 얼마나 큽 니까?
onestop

N과 k는 클 수 있지만 계산 능력은 문제가되지 않습니다.
Tomek Tarczynski

답변:



6

이것은 기계 학습에 좋은 문제처럼 보이 므로이 방법 그룹에 중점을 둘 것입니다.

첫 번째로 가장 확실한 아이디어는 kNN 알고리즘입니다. 먼저 시청자 간의 유사성을 계산 한 다음 유사한 사용자가 캐스팅 한이 그림의 평균 투표로 누락 된 투표를 예측합니다. 자세한 내용은 Wikipedia 를 참조하십시오 .

또 다른 아이디어는이 데이터에 대해 감독되지 않은 임의 포리스트를 늘리고 (이미지 또는 사람의 특성이 더 좋은 방식으로) 포리스트 구조를 기반으로 누락 된 데이터를 대치하는 것입니다. 전체 방법은 R randomForest패키지 에 구현 및 설명되어 있으며 rfImpute기능을 찾으십시오 .

마지막으로 문제를 일반 분류 작업으로 재구성 할 수 있습니다 (예 : 행렬에서 각 0의 객체를 만들고 평균 뷰어 투표, 평균 이미지 투표, 가장 많은 투표, 두 번째로 투표 등). 유사한 뷰어, 이미지, 외부 데이터 (평균 이미지 색조, 유권자 연령 등)와 동일하며이 데이터 (SVM, RF, NB, ...)에서 다양한 분류기를 사용해보십시오.

좀 더 복잡한 가능성도 있습니다. 개요를 보려면 Netflix 상 문제 (유사한 문제) 솔루션을 찾을 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.