"A"는 "B"및 "C"와 관련이 있습니다. 이 맥락에서 "B"와 "C"도 관련이 있다는 것을 어떻게 알 수 있습니까?
예:
최근 브로드 웨이 경기에 대한 몇 가지 헤드 라인이 있습니다.
- Al Pacino 주연의 David Mamet의 Glengarry Glen Ross, 브로드 웨이에서 개장
- 'Glengarry Glen Ross'의 Al Pacino : 비평가들은 어떻게 생각 했습니까?
- Al Pacino, Broadway Turn에 대한 평가 부족
- 극장 검토 : Glengarry Glen Ross는 별을 열심히 판매하고 있습니다
- 글렌 가리 글렌 로스; 누가 Klieg 조명을 죽였습니까?
문제:
이러한 레코드에 대해 퍼지 문자열 일치를 실행하면 인간 독자가 훨씬 더 큰 데이터 세트의 컨텍스트에서 선택할 수 있지만 일부 관계는 설정되지만 다른 관계는 설정되지 않습니다.
# 3이 # 4와 관련이 있다는 것을 어떻게 알 수 있습니까? 둘 다 # 1에 쉽게 연결할 수 있지만 서로 연결할 수는 없습니다.
이런 종류의 데이터 또는 구조에 대해 (구글 가능) 이름이 있습니까? 어떤 알고리즘을 찾고 있습니까?
골:
1,000 헤드 라인, 자동으로 이들 5 개 항목이 모두 제안 시스템을 감안할 때 아마도 같은 일에 대한합니다.
솔직히 말하면, 내가이 문제를 올바르게 표현하는 방법을 잃어버린 것을 프로그래밍 한 지 너무 오래되었습니다. (알아야 할 내용이 무엇인지 모르겠습니다.)
이것은 개인 프로젝트이며 파이썬으로 작성 중입니다. 도움, 조언 및 조언에 미리 감사드립니다!