답변:
당신이 묘사하는 것은 종종 TF-IDF 와 추출 요약 의 간단한 조합을 사용하여 달성됩니다 .
간단히 말해서, TF-IDF는 다른 말뭉치와 비교하여 각 문서에서 각 단어의 상대적 중요성을 알려줍니다. 이 시점에서 각 문서의 각 단어에 대해 "중요도"와 비슷한 점수를 얻습니다. 그런 다음이 개별 단어 점수를 사용하여 각 문장에서 각 단어의 점수를 합산하여 각 문장의 종합 점수를 계산할 수 있습니다. 마지막으로, 각 문서의 상위 N 개 점수 문장을 요약으로 가져 오십시오.
올해 초, 나는 NLTK와 Scikit-learn : Python에서 NLP의 Smattering을 사용하여 파이썬에서 이것을 구현하는 iPython Notebook을 만들었습니다 .