칼 브로 만 (Karl Broman)의 답변 에서처럼 베이지안 접근 방식은 신뢰 구간을 사용하는 것보다 훨씬 낫습니다.
신뢰 구간 문제
신뢰 구간을 사용하는 것이 왜 제대로 작동하지 않을 수 있습니까? 한 가지 이유는 항목에 대한 평가가 많지 않으면 신뢰 구간이 매우 넓어 신뢰 구간의 하한이 작기 때문입니다. 따라서 많은 평가가없는 항목은 목록 하단에 나타납니다.
그러나 직관적으로 많은 평가가없는 항목이 평균 항목에 가깝게되기를 원하므로 모든 항목에 대한 평균 평가쪽으로 항목의 예상 평가를 흔들어야합니다 (예 : 예상 평가를 이전 으로 푸시하려는 경우 ). . 이것이 바로 베이지안 접근 방식입니다.
베이지안 접근법 I : 등급에 대한 정규 분포
Karl의 답변에서와 같이 추정 된 등급을 이전으로 이동시키는 한 가지 방법은 형식의 추정값을 사용하는 것입니다 .w ∗ R + ( 1 − w ) ∗ C
- 아르 자형 은 항목에 대한 등급 이상의 평균입니다.
- 기음 는 모든 항목에 대한 평균입니다 (또는 이전에 등급을 축소하려는 항목).
- 공식은 과 의 가중치 조합입니다 .C아르 자형기음
- Rvmw = vv + m 은 할당 된 가중치입니다 . 여기서 는 맥주에 대한 리뷰 수이고 은 일정한 "임계 값"매개 변수입니다.아르 자형V엠
- 참고 그 때 우리가 현재 항목에 대한 평가가 많이있을 때 즉, 다음, 매우 큰 우리의 추정 평가가 매우 가까운 그래서, 매우 가까운 1 인 우리가 이전에 거의 관심을 지불 . 그러나 가 작 으면 는 0에 매우 가까우므로 추정 된 등급은 이전 에 많은 가중치를 부여합니다 .w R C v w CV승아르 자형기음V승기음
실제로이 평가는 개별 평가가 해당 평균을 중심으로 하는 정규 분포 에서 비롯 될 때 항목의 평균 평가의 사후 추정으로 베이지안 해석으로 제공 될 수 있습니다 .
그러나 등급이 정규 분포에서 나온다고 가정하면 두 가지 문제가 있습니다.
- 정규 분포는 연속적 이지만 등급은 개별적 입니다.
- 아이템의 등급이 반드시 단봉 형 가우스 모양을 따르는 것은 아닙니다. 예를 들어, 항목이 극도로 편광되어 있기 때문에 사람들은 매우 높은 등급을 받거나 매우 낮은 등급을주는 경향이 있습니다.
베이지안 접근 II : 등급에 대한 다항 분포
따라서 등급에 대한 정규 분포를 가정하는 대신 다항 분포를 가정 해 봅시다 . 즉, 특정 항목이 주어지면 임의의 사용자가 1 개의 별을 줄 확률 , 임의의 사용자가 2 개의 별을 줄 확률 등이 있습니다.p 2피1피2
물론 우리는 이러한 확률이 무엇인지 전혀 모릅니다. 이 항목에 대한 평가가 점점 이 가깝다고 추측 할 수 있습니다 . 여기서 은 별표 1 개를 준 사용자 수이고 은 별표 가 표시된 총 사용자 수입니다. 처음 시작할 때는 아무것도 없습니다. 따라서 이러한 확률에 Dirichlet prior 를 배치합니다.n 1피1 n1nDir(α1,…,αk)엔1엔엔1엔 D 나 r에 ( α1, … , α케이)
이 Dirichlet은 무엇입니까? 우리는 각 생각할 수있는 일부 가상 사람이 항목을 준 횟수의 "가상 수"있다고 매개 변수 별을. 예를 들어, , 이고 다른 모든 가 0이면 두 명의 가상 인물이 1 개의 별표를, 한 명의 가상 인이 2 개의 아이템을 주었다고 생각할 수 있습니다. 별. 따라서 실제 사용자를 확보하기 전에이 가상 배포를 사용하여 항목의 등급을 추정 할 수 있습니다. i α 1 = 2 α 2 = 1 α iα나는나는α1= 2α2= 1α나는
[선택하는 한 가지 방법 매개 변수를 설정하는 것 의 투표의 전체 비율과 동일 별. ( 매개 변수는 반드시 정수일 필요는 없습니다.]]α i i α iα나는α나는나는α나는
그런 다음 실제 등급이 나오면 이전에 Dirichlet의 가상 개수에 해당 개수를 추가하기 만하면됩니다. 아이템의 등급을 추정 할 때마다 모든 아이템의 등급 (가상 등급과 실제 등급 모두)의 평균을 취하십시오.