텍스트를 자동으로 스캔하고 (도구에 붙여 넣거나 .doc / .pdf에서 읽을 수있는) 표준 형식을 사용하여 인용 데이터를 식별 할 수있는 소프트웨어 (또는 의사 코드)가 있습니까? 그런 다음 데이터는 구성 필드로 분할되어 XML, CSV 또는 기타 구조화 된 데이터 형식으로 내보내집니다. cb2Bib를 살펴 보았지만 하버드 스타일의 참조에서만 연도를 추출 할 수 없었습니다.
텍스트를 자동으로 스캔하고 (도구에 붙여 넣거나 .doc / .pdf에서 읽을 수있는) 표준 형식을 사용하여 인용 데이터를 식별 할 수있는 소프트웨어 (또는 의사 코드)가 있습니까? 그런 다음 데이터는 구성 필드로 분할되어 XML, CSV 또는 기타 구조화 된 데이터 형식으로 내보내집니다. cb2Bib를 살펴 보았지만 하버드 스타일의 참조에서만 연도를 추출 할 수 없었습니다.
답변:
입력 텍스트에서 XML을 생성 할 수있는 다음 인용 구문 분석기 목록을 살펴보십시오.
http://freecite.library.brown.edu
http://paracite.eprints.org
http://aye.comp.nus.edu.sg/parsCit(2012 년 8 월 1 일 현재 유지 보수 모드)
http : // opcit.eprints.org
http://search.cpan.org/~mjewell/Biblio-Citation-Parser-1.10
freecite를 사용하면 curl
다음과 같이 명령을 사용하여 인용을 제출할 수 있습니다 (PHP).
$cmd = "curl -H 'Accept: text/xml' -d \"" . $myinput . "\" http://freecite.library.brown.edu/citations/create";
$xmloutput = exec( $cmd );
현재 (2017)이를 구현하는 가장 활발한 오픈 소스 프로젝트는 Anystyle Parser (최신 버전 07-2016) 인 것 같습니다 . 웹 인터페이스, API를 통해 사용하거나 RubyGem으로 다운로드 할 수 있습니다.
웹 사이트에서 구현이 ParsCit (최종 버전 2013?) 및 FreeCite (최종 커밋 2009)에서 영감을 받았다고 명시 적으로 언급했습니다.
또한 그들의 웹 사이트를 형성하십시오 :
AnyStyle Parser는 기본 제공 편집기를 사용하는 모든 사람이 교육 할 수있는 조건부 임의 필드를 기반으로하는 강력한 기계 학습 휴리스틱을 사용합니다.
정말 멋진 기능으로,이를 가장 흥미로운 구현 (imho)으로 만듭니다. API 문서에 설명 된대로 교육은 매우 간단 해 보입니다 . 수동으로 수정 한 결과를 제공하고 Anystyle.parser.train
명령을 실행하기 만하면 됩니다. ParsCit과 FreeCite도이 기능을 지원하는지 확실하지 않지만 지원하지 않으면 큰 기능 차이처럼 보입니다.
Regex Buddy 또는 Expresso 와 같은 도구를 사용해보십시오 .
프로그래머가 아닌 경우 정규 표현식은 약간 위협적 일 수 있지만 특히 위의 도구와 같은 적절한 도구를 사용하면 어렵지 않습니다.
인용을 추출하기 위해 정규 표현식을 사용하는 사람의 예는 다음과 같습니다.
멘델 리 는 이것을 할 수 있어야한다. PDF를 가져온 다음 메타 데이터를 BibTeX, RIS 및 EndNote XML로 내보낼 수 있습니다. 무료로 다운로드 할 수 있으며 크로스 플랫폼입니다.
편집 : 나는 이것을 몇 가지 문서에서 테스트했습니다. PDF 가져 오기가 올바른 형식의 참조에 적합합니다. LaTeX를 사용하여 만든 문서의 경우 "Smith, J"형식의 저자와 관련된 모든 참조 자료 또는 "J. Smith"등을 잘 가져 왔습니다. 저자가 회사 (단일 단어)이거나 참조가 불완전한 경우 제대로 작동하지 않습니다. 추출 된 참조는 쉽게 편집하고 BibTeX 등으로 내보낼 수 있습니다.
http://www.crossref.org/guestquery/#stqsearch를 시도 하십시오
이 문서는 참조 텍스트를 자동으로 구문 분석 할 수 있으며 온라인 기사에 대한 링크를 제공합니다.
Zotero는 웹 컨텐츠를위한 firefox 플러그인입니다. 문서 / PDF와 유사한 도구가 있는지 확실하지 않습니다.
이것은 아마도 @Abhinav에 대한 주석으로 더 많이 속하지만 zotero는 여기에 설명 된 것처럼 구조적 데이터 만 처리합니다.
흥미로운 해킹은 각 인용을 선호하는 데이터베이스에서 검색 쿼리로 사용하는 프로그램을 작성한 다음 zotero와 같은 것을 사용하여 심판 정보를 생성하는 것입니다. citeUlike와 같은 서비스에서 구조화 된 정보를 다운로드 할 수도 있습니다. 당신이 그런 일을 끝내면 알려주세요! (그렇다면 github에 올리십시오.).