어휘 주제에 접근하는 방법에 대한 의견과 이론을 찾고 있습니다.
문자열 모음이 있다고 가정 해 봅시다. 한 문장 또는 여러 문장 일 수 있습니다. 이 문자열을 구문 분석하고 가장 중요한 단어를 제거하고 싶습니다. 어쩌면 단어가 중요 할 가능성을 나타내는 점수로 평가하고 싶습니다.
내가 무엇을 의미하는지 몇 가지 예를 봅시다.
예 # 1 :
"난 정말 커리 그를 원하지만 살 여유가 없어!"
이것은 매우 기본적인 예이며 단 한 문장입니다. 인간으로서, 나는 "Keurig"가 여기서 가장 중요한 단어임을 쉽게 알 수 있습니다. 또한 "afford"는 상대적으로 중요하지만 문장의 기본 요점은 아닙니다. "I"라는 단어가 두 번 나타나지만 실제로 정보를 알려주지 않기 때문에 전혀 중요하지 않습니다. 다음과 같은 단어 / 점수 해시를 기대할 수 있습니다.
"Keurig" => 0.9
"afford" => 0.4
"want" => 0.2
"really" => 0.1
etc...
예 # 2 :
"그냥 내 인생에서 최고의 수영 관행 중 하나를 가졌었다. 희망적으로 나는 내 시간을 경쟁에서 유지할 수 있기를 바란다. 만일 내가 방수 시계를 가지고 다니는 것을 기억했다면."
이 예에는 여러 문장이 있으므로 전체적으로 더 중요한 단어가 있습니다. 예제 # 1의 요점 연습을 반복하지 않으면 아마도 "수영"(또는 "수영 연습"), "경쟁", "시계"(또는 "방수"라는 두 가지 또는 세 가지 중요한 단어가 나올 것으로 예상됩니다. 하이픈을 처리하는 방법에 따라 "시계"또는 "비방 수 시계").
이와 같은 몇 가지 예가 주어지면 어떻게 비슷한 일을 하시겠습니까? 프로그래밍에 기존 (오픈 소스) 라이브러리 나 알고리즘이 이미 있습니까?