문서에서 가장 유익한 텍스트 부분 추출


16

현재 문서에 대한 대부분의 정보를 담고있는 텍스트 일부 추출에 대한 기사 나 토론이 있습니까?

예를 들어, 같은 도메인의 많은 문서 모음이 있습니다. 단일 문서에 대한 주요 정보를 담고있는 텍스트 부분이 있습니다. 해당 부분 중 일부를 추출하여 텍스트 요약으로 사용하고 싶습니다. 이와 같은 것을 달성하는 방법에 대한 유용한 문서가 있습니까?

이 자연 언어 처리 분야에서 이미 수행되었을 수있는 일에 대한 통찰력을 얻기 위해 내가 찾거나 읽어야 할 것을 올바른 방향으로 안내 할 수 있다면 정말 도움이 될 것입니다.

답변:


23

당신이 묘사하는 것은 종종 TF-IDF추출 요약 의 간단한 조합을 사용하여 달성됩니다 .

간단히 말해서, TF-IDF는 다른 말뭉치와 비교하여 각 문서에서 각 단어의 상대적 중요성을 알려줍니다. 이 시점에서 각 문서의 각 단어에 대해 "중요도"와 비슷한 점수를 얻습니다. 그런 다음이 개별 단어 점수를 사용하여 각 문장에서 각 단어의 점수를 합산하여 각 문장의 종합 점수를 계산할 수 있습니다. 마지막으로, 각 문서의 상위 N 개 점수 문장을 요약으로 가져 오십시오.

올해 초, 나는 NLTK와 Scikit-learn : Python에서 NLP의 Smattering을 사용하여 파이썬에서 이것을 구현하는 iPython Notebook을 만들었습니다 .


2
예, 아마 그럴 것입니다. 나는 또한 이미 유익한 것을 알고있는 단어에 가중치를 더할 수 있습니다. 도움과 유용한 링크에 감사드립니다.
MaticDiba

PDF로 사용할 수 있습니까? :)
Adam

예, pdftotext와 같은 것을 사용하여 PDF에서 일반 텍스트를 이미 추출했다고 가정하면 PDF의 텍스트에 이것을 사용할 수 있습니다.
Charlie Greenbacker

1

많은 키워드 추출 기술은 다음과 같은 요소에 따라 다릅니다.

  1. 텍스트의 문법적 품질
  2. 텍스트 길이
  3. 단일 키워드 또는 구문 키워드 등을 찾고 있는지 여부

그러나 일반적으로 텍스트가 길고 키워드를 자동으로 추출하려면 다음 기사를 따르는 것이 좋습니다.

  1. 텍스트 랭크

  2. 레이크 [신속 자동 키워드 추출]

  3. 토피카

또한 위의 기술을 따르지 않는 맞춤 (특수) 키워드를 추출하려면 아래 게시물을 살펴보십시오.

파이썬에서 NLTK POS 태거를 사용하여 맞춤 키워드 추출

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.