로지스틱 손실 기능으로 매트릭스 인수 분해를 통한 협업 필터링

9

협업 필터링 문제를 고려하십시오. #users * #items 크기의 행렬 이 있습니다. 사용자 i가 항목 j를 좋아하면 이고, 사용자 i가 항목 j를 좋아하지 않으면 이고(i, j) 쌍에 대한 데이터가없는 경우 향후 사용자, 항목 쌍에 대한 를 예측하려고합니다 . $M$ $M_{i,j} = 1$ $M_{i,j} = 0$ $M_{i,j}=?$ $M_{i,j}$

표준 협력 필터링 방식은 2 행렬들의 곱으로 M을 대표하는 되도록 최소이다 (예를 들면 공지의 구성 요소에 대한 평균 제곱 오차를 최소화 ). $U \times V$ $||M - U \times V||_2$ $M$

나에게 로지스틱 손실 함수가 더 적합한 것 같습니다. 왜 모든 알고리즘이 MSE를 사용합니까?

machine-learning recommender-system matrix-decomposition

— 슬론
소스

1

이 경우에는 의미가 있지만 대부분의 경우 M_i, j는 등급이 될 수 있으며이 경우 MSE가 더 유용합니다. MSE가 더 일반적이라고 말하고 싶습니다.

— ThiS

9

우리는 음악 추천의 맥락에서 (재생 횟수를 사용하여) Spotify에서 암시 적 행렬 분해를 위해 로지스틱 손실을 사용합니다. 우리는 다가오는 NIPS 2014 워크숍에서 우리의 방법에 대한 논문을 방금 발표했습니다. 이 논문의 제목은 암시 적 피드백 데이터를위한 로지스틱 매트릭스 인수 분해 (Logistic Matrix Factorization)이며 여기에서 확인할 수 있습니다 .

논문 코드는 내 Github https://github.com/MrChrisJohnson/logistic-mf 에서 찾을 수 있습니다.

— 크리스 존슨
소스

1

L (R | X, Y, β) = Prod (p (lui | xu, yi, βu, βi) ^ α.r_ui * (1-p (lui | xu, yi, βu, βi))) ^ (1- α.r_ui) A는 코드를 보았고 1 + α.r_ui l64를 사용합니다 : A = (self.counts + self.ones) * github.com/MrChrisJohnson/logistic-mf/blob/master/ … 그러므로 뭔가 빠졌습니까? 종류와 관련하여

— fstrub

나는 당신이 출판 한 논문을 보았습니다. 로지스틱 회귀를 사용한 행렬 인수 분해에 대해서는 아직 연구되지 않았기 때문에 매우 흥미 롭습니다. 어쨌든, 나는 당신의 손실 함수와 약간 혼동되어 있습니다. (2) L (R | X, Y, β) = Prod (p (lui | xu, yi, βu, βi) ^ α.r_ui * (1-p (lui | xu, yi, βu, βi)) (3)에 관해서는, 오타 미사 스케 L (R | X, Y, β) = Prod (p (lui | xu, yi, βu, βi) ^ α가 있다고 생각합니다 .r_ui * (1 − p (lui | xu, yi, βu, βi)) ^ (1 + α.r_ui ) 그러나 실제로는 여전히 혼란스러워 실제로는 Bernouilli와 같은 법칙을 기대했을 것입니다 as

— fstrub

어쩌면 나는 주제에 대해 꽤 늦었을 것입니다. 누군가가 음악 추천의 맥락 밖에서 대신이 상품을 시험해 볼 기회가 있었습니까? 감사.

— Marco Fumagalli

3

이 주제에 대해 찾을 수있는 대부분의 논문은 등급이 [0,5] 인 매트릭스를 다룰 것입니다. 예를 들어, Netflix Prize와 관련하여 매트릭스는 1에서 5까지의 이산 등급 (+ 결 측값)을 갖습니다. 그렇기 때문에 제곱 오차가 가장 널리 퍼진 비용 함수입니다. Kullback-Leibler 분기와 같은 다른 오류 측정을 볼 수 있습니다.

표준 행렬 인수 분해에서 발생할 수있는 다른 문제는 행렬 U 및 V 의 일부 요소 가 음수 일 수 있다는 것입니다 (특히 첫 번째 단계에서). 이것이 여기서 로그 손실을 비용 함수로 사용하지 않는 이유입니다.

그러나 음이 아닌 행렬 분해 에 대해 이야기하는 경우 비용 손실로 로그 손실을 사용할 수 있어야합니다. log-loss가 비용 함수로 사용되는 Logistic Regression과 유사한 경우입니다. 관찰 된 값은 0과 1이며 0과 1 사이의 숫자 (확률)를 예측합니다.

— 아이 멘
소스