저는 작고 개인적인 프로젝트를 진행하고 있는데,이 프로젝트는 사용자의 직무 기술을 활용하고 그 기술을 기반으로 가장 이상적인 경력을 제안합니다. 나는 이것을 달성하기 위해 직업 목록 데이터베이스를 사용합니다. 현재 코드는 다음과 같이 작동합니다.
1) 각 직업 목록의 텍스트를 처리하여 목록에 언급 된 기술을 추출합니다.
2) 각 경력 (예 : "데이터 분석가")에 대해 해당 경력에 대한 작업 목록의 처리 된 텍스트를 하나의 문서로 결합하십시오.
3) 경력 문서 내 각 기술의 TF-IDF 계산
이 후에는 사용자의 기술 목록을 기반으로 경력을 평가하는 데 어떤 방법을 사용해야하는지 잘 모르겠습니다. 내가 본 가장 인기있는 방법은 사용자의 기술을 문서로 취급 한 다음 기술 문서의 TF-IDF를 계산하고 코사인 유사성과 같은 것을 사용하여 기술 문서와 각각의 유사성을 계산하는 것입니다. 경력 문서.
동일한 형식의 두 문서를 비교할 때 코사인 유사성이 가장 적합하기 때문에 이것은 나에게 이상적인 솔루션처럼 보이지 않습니다. 그 점에서 TF-IDF는 사용자의 기술 목록에 적용하기에 적합한 지표처럼 보이지 않습니다. 예를 들어, 사용자가 목록에 추가 기술을 추가하면 각 기술에 대한 TF가 떨어집니다. 실제로, 나는 사용자의 기술 목록에 기술의 빈도가 무엇인지 상관하지 않습니다. 단지 그 기술을 보유하고 있는지 (그리고 기술을 얼마나 잘 알고 있는지) 관심이 있습니다.
더 나은 메트릭은 다음을 수행하는 것 같습니다.
1) 사용자가 가진 각 스킬에 대해 경력 문서에서 해당 스킬의 TF-IDF를 계산하십시오.
2) 각 경력에 대해 모든 사용자 기술에 대한 TF-IDF 결과를 합산하십시오
3) 위의 합계를 기반으로 순위 경력
올바른 줄을 따라 생각하고 있습니까? 그렇다면 이러한 라인을 따라 작동하지만 단순한 합계보다 더 정교한 알고리즘이 있습니까? 도와 주셔서 감사합니다!