FMA (Field-Aware Factorization Machine)와 표준 FM (FM)이 어떻게 비교되는지 설명 할 수 있습니까?
표준 : http://www.ismll.uni-hildesheim.de/pub/pdfs/Rendle2010FM.pdf
"현장 인식": http://www.csie.ntu.edu.tw/~r01922136/kaggle-2014-criteo.pdf
FMA (Field-Aware Factorization Machine)와 표준 FM (FM)이 어떻게 비교되는지 설명 할 수 있습니까?
표준 : http://www.ismll.uni-hildesheim.de/pub/pdfs/Rendle2010FM.pdf
"현장 인식": http://www.csie.ntu.edu.tw/~r01922136/kaggle-2014-criteo.pdf
답변:
높은 수준의 설명을 요구하는 것 같습니다. 원본 게시물의 슬라이드 내에서 연결된 슬라이드 를 참조하면 FM (슬라이드 11)과 FFM (슬라이드 12)이 비교됩니다.
빠른 예로, 사용자와 영화에 대해 배우는 경우 FM에는 다음과 같은 요소가있을 수 있습니다.
w_{user_1}*w_{movie_1}*... + w{user_1}*w_{genre_1}*...
FFM은 :
w_{user_1, movies}*w_{movie_1, users}*... + w{user_1, genres}*w_{genre_1, users}*...
중요한 차이점은 FM에서 w_{user_1}
계수는 두 가지 측면에서 동일하다는 것입니다. 사용자에 대한 단일 개념이 있습니다. FFM에서는 w_{user_1}
영화 나 장르와 상호 작용하는지 여부와 같이 각 상황에 대해 별도의 학습을합니다 . 각 특정 영화 나 장르에 대해 별도로 배운 것이 아니라 일반적으로 영화와 장르에 대해 배웁니다. 즉, 각 유형의 상호 작용에 대한 사용자의 컨텍스트를 별도로 학습합니다.
또한 이 용어는 사용자 와 (과) 상호 작용 한 이후로 w_{movie_1}
진행되었습니다 .w_{movie_1, users}
w_{user_1}
(일대 핫 인코딩 이전) 세트 예측 자 / 필드 (예 : 영화 장르, 사용자 성별 및 사용자 인종)가 있다고 가정합니다. 또한, 각 예측 변수 는 값 중 하나를 취할 수 있다고 가정하십시오 . one-hot 인코딩 후에는 크기 의 새로운 이진 기능 세트 가 .z ∈ Z k z X K : = ∑ z ∈ Z k z
모든 교호 작용이있는 모형에서 고유 항 을 갖는 작용 계수 행렬 추정해야합니다 .K × ( K + 1 ) / 2
인수 분해 시스템은 행렬 에 구조를 적용하고 가정합니다 . 여기서 는 차원 이고 사용자가 지정한 숫자 는 입니다. 대신 를 추정 합니다.Q ≡ W T W W l × K 1 ≤ l ≤ K W Q
현장 인식 인수 분해 시스템은 에 구조를 추가 합니다. (원래 기능)를 기반으로 를 블록으로 분할합니다 . 경우 나타내고 블록 우리가 가정 로부터 오는 블록 , 치수이다 . FM과 마찬가지로 대신 를 추정합니다 .Q z q z i , z j z i , z j Q q z i , z j z i , z j W T j W i W i l × K W i Q
의 FM 인수 분해 에는 매개 변수가 있습니다. "feild-aware"FM에는매개 변수. 모든 교호 작용이있는 모형에는 매개 변수가 있습니다. K × l K × l × | Z | K × ( K + 1 ) / 2
표준 분해 시스템에도 필드가 있습니다. 여기서 "참신함"은 GBDT 기능의 사용과 해싱 트릭의 적용으로 보입니다. 큰 효과는 없지만 마지막 슬라이드에서 성능의 미세한 범위를 확인하십시오.