종이 초록을 크롤링하는 API가 있습니까?


13

매우 긴 종이 이름 목록을 가지고 있다면 인터넷이나 데이터베이스에서이 종이의 초록을 어떻게 얻을 수 있습니까?

논문 이름은 "공공 건강 영역을위한 웹 마이닝 유틸리티 평가"와 같습니다.

아무도 나에게 해결책을 줄 수있는 API를 알고 있습니까? Google 학자를 크롤링하려고했지만 Google이 내 크롤러를 차단했습니다.


2
이것에 대한 일반적인 API가 있는지 의심합니다. Academia.edu, 게시자 사이트 등과 같은 다양한 서비스를 크롤링 할 수 있습니다. 그럼에도 불구하고 먼저 로컬 문서 데이터베이스를 구축 한 다음 초록 추출을 실험하는 것이 더 쉬울 것입니다.
Wojciech Walczak

답변 주셔서 감사합니다! 이미 로컬 데이터베이스를 구축했습니다. 다양한 서비스에서 크롤링하는 문제는 각 웹 사이트마다 구문 분석 규칙을 만들어야한다는 것입니다.
Alex Gao

그렇다면 PDF를 TXT로 변환 한 다음 정규 표현식으로 초록을 추출하는 것은 어떻습니까?
Wojciech Walczak

고마워! 그러나 계약서에는 대량의 논문 다운로드가 허용되지 않는다고 명시되어 있습니다. 두통이 생깁니다.
Alex Gao

2
이 스택 오버플로 답변 링크 는 내가 얻을 수있는 최선의 답변을 제공 한다고 생각합니다 . 이 문제가 발생한 사람들은이 페이지를 볼 수도 있습니다.
Alex Gao

답변:


8

그것을 찾아보십시오 :

하나의 정확한 제목 일치를 얻으면 아마도 올바른 기사를 찾은 것이므로 나머지 정보를 거기에서 채울 수 있습니다. 둘 다 다운로드 링크와 bibtex 스타일 출력을 제공합니다. 완벽한 메타 데이터를 얻기 위해 원하는 것은 PDF를 다운로드하여 구문 분석하고 DOI 스타일 식별자를 찾는 것입니다.

이 작업을 수행하면 친절하고 요청을 제한하십시오.


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.