매우 긴 종이 이름 목록을 가지고 있다면 인터넷이나 데이터베이스에서이 종이의 초록을 어떻게 얻을 수 있습니까?
논문 이름은 "공공 건강 영역을위한 웹 마이닝 유틸리티 평가"와 같습니다.
아무도 나에게 해결책을 줄 수있는 API를 알고 있습니까? Google 학자를 크롤링하려고했지만 Google이 내 크롤러를 차단했습니다.
2
이것에 대한 일반적인 API가 있는지 의심합니다. Academia.edu, 게시자 사이트 등과 같은 다양한 서비스를 크롤링 할 수 있습니다. 그럼에도 불구하고 먼저 로컬 문서 데이터베이스를 구축 한 다음 초록 추출을 실험하는 것이 더 쉬울 것입니다.
—
Wojciech Walczak
답변 주셔서 감사합니다! 이미 로컬 데이터베이스를 구축했습니다. 다양한 서비스에서 크롤링하는 문제는 각 웹 사이트마다 구문 분석 규칙을 만들어야한다는 것입니다.
—
Alex Gao
그렇다면 PDF를 TXT로 변환 한 다음 정규 표현식으로 초록을 추출하는 것은 어떻습니까?
—
Wojciech Walczak
고마워! 그러나 계약서에는 대량의 논문 다운로드가 허용되지 않는다고 명시되어 있습니다. 두통이 생깁니다.
—
Alex Gao