추천 시스템의 매트릭스 인수 분해 모델을 이해하려고 노력하고 있으며 항상 '잠재적 기능'을 읽습니다. 그러나 그 의미는 무엇입니까? 기능이 교육 데이터 세트에 어떤 의미가 있는지 알고 있지만 잠재 기능에 대한 아이디어를 이해할 수 없습니다. 내가 찾을 수있는 주제에 대한 모든 문서는 너무 얕습니다.
@JackTwain 올바른 PCA 비유는 잠재적 특징이 고유 벡터라는 것입니다. 주성분은 주 고유 벡터에 대한 각 관측치에 할당 된 가중치입니다. 다른 행렬 인수 분해 모델에서 잠재 특징은 고유 벡터의 역할을합니다. 이것은 농담처럼 들릴지 모르지만, 실수는 사람들에게 혼란을 종식시키지 않습니다.
잠재 기능 (예 : "사용자 벡터")이 일부 대상 변수를 예측하는 데 사용되는 논문을 읽었습니다. 성별을 예로 들어 봅시다. 예측 모델을 이런 식으로 구축 할 수 있다는 점에서 "작동"합니다. 내 질문은 "사용자 벡터"와 사용자가 "방문한"모든 항목에 대해 "항목 벡터"를 평균화하는 것의 차이점은 무엇입니까? IOW, 위에서 언급 한 예측 모델이 다른 것보다 나아질 것으로 기대하십니까? 감사합니다 (이것이 보이면).
@ thecity2를 사용하면 사용자 항목의 평균을 계산할 수 있으며 사전 계산 된 사용자 벡터가없는 신규 사용자를 처리 할 때 실제로 유용 할 수 있습니다 (작은 최적화 반복을 실행하여 계산하기는 어렵지만). 일반 평균화와 관련된 문제도 있습니다. 사용자가 더 많이 소비 한 항목 – 평균 L2 정규화 기 및 고차원 공간의 다른 불쾌한 속성 때문에 평균 항목 벡터가 0에 가까울 수 있습니다. 마지막으로 별도의 벡터를 사용하는 것이 더 유연합니다. 모델에서 이러한 평균을 학습 할 수 있습니다.
변수의 '대기 시간'/ 숨김에 대한 인식을 얻는 요소는 주요 구성 요소보다 더 대표적이라고 말하고 싶습니다. 지연 시간은 행동 과학자들이 여러 항목 / 측정 항목의 느낌, 슬픔과 같은 지각 적 구성을 측정하고 직접 측정 할 수없는 숨겨진 변수에 대한 숫자를 도출하는 이유 중 하나입니다.