학술 문헌에서 인용 텍스트 자동 분석

18

텍스트를 자동으로 스캔하고 (도구에 붙여 넣거나 .doc / .pdf에서 읽을 수있는) 표준 형식을 사용하여 인용 데이터를 식별 할 수있는 소프트웨어 (또는 의사 코드)가 있습니까? 그런 다음 데이터는 구성 필드로 분할되어 XML, CSV 또는 기타 구조화 된 데이터 형식으로 내보내집니다. cb2Bib를 살펴 보았지만 하버드 스타일의 참조에서만 연도를 추출 할 수 없었습니다.

parsing citations

— 알리스 테어 노크
소스

텍스트 자체 또는 참조 섹션 만 스캔 하시겠습니까?

— innaM

단지 참고 문헌-개인 출판물이 포함 된 문서 일 가능성이 큽니다.

— Alistair는

이것이 필요한지 확실하지 않지만이 refhive.com을

— Mostafa Elmoghazi

4

입력 텍스트에서 XML을 생성 할 수있는 다음 인용 구문 분석기 목록을 살펴보십시오.

http://freecite.library.brown.edu
http://paracite.eprints.org
http://aye.comp.nus.edu.sg/parsCit(2012 년 8 월 1 일 현재 유지 보수 모드)
http : // opcit.eprints.org
http://search.cpan.org/~mjewell/Biblio-Citation-Parser-1.10

freecite를 사용하면 curl다음과 같이 명령을 사용하여 인용을 제출할 수 있습니다 (PHP).

$cmd = "curl -H 'Accept: text/xml' -d \"" . $myinput . "\" http://freecite.library.brown.edu/citations/create";
$xmloutput = exec( $cmd );

— 작은 통
소스

다른 옵션은 github.com/inspirehep/refextract 입니다. ML을 기반으로하지 않지만 테스트에서 잘 작동했습니다.

— Josir

3

현재 (2017)이를 구현하는 가장 활발한 오픈 소스 프로젝트는 Anystyle Parser (최신 버전 07-2016) 인 것 같습니다 . 웹 인터페이스, API를 통해 사용하거나 RubyGem으로 다운로드 할 수 있습니다.

웹 사이트에서 구현이 ParsCit (최종 버전 2013?) 및 FreeCite (최종 커밋 2009)에서 영감을 받았다고 명시 적으로 언급했습니다.

또한 그들의 웹 사이트를 형성하십시오 :

AnyStyle Parser는 기본 제공 편집기를 사용하는 모든 사람이 교육 할 수있는 조건부 임의 필드를 기반으로하는 강력한 기계 학습 휴리스틱을 사용합니다.

정말 멋진 기능으로,이를 가장 흥미로운 구현 (imho)으로 만듭니다. API 문서에 설명 된대로 교육은 매우 간단 해 보입니다 . 수동으로 수정 한 결과를 제공하고 Anystyle.parser.train명령을 실행하기 만하면 됩니다. ParsCit과 FreeCite도이 기능을 지원하는지 확실하지 않지만 지원하지 않으면 큰 기능 차이처럼 보입니다.

— 우터
소스

Anystyle Parser를 제외하고는 모두 현재 최고 투표 답변에 언급되어 있습니다. 실제로 눈에 띄는 것은 무엇입니까? 원래 질문에 주어진 장단점은 무엇입니까?

— Seth

아 참으로. 답변을 수정하고 개선하겠습니다. 그것을 지적하기위한 Thx.

— Wouter

지금 죽었나 봐

— 전문가

1

@Brandon : 여기에 HOWTO를 게시했습니다 : github.com/inukshuk/wapiti-ruby/issues/3

— Wouter

1

감사합니다! 루비를 만지지 않은 사람은 실제로 매우 도움이 될 것입니다.

— Brandon

2

Regex Buddy 또는 Expresso 와 같은 도구를 사용해보십시오 .

프로그래머가 아닌 경우 정규 표현식은 약간 위협적 일 수 있지만 특히 위의 도구와 같은 적절한 도구를 사용하면 어렵지 않습니다.

인용을 추출하기 위해 정규 표현식을 사용하는 사람의 예는 다음과 같습니다.

정규 구문 분석 구문 분석

— 금연 건강 증진 협회
소스

1

멘델 리 는 이것을 할 수 있어야한다. PDF를 가져온 다음 메타 데이터를 BibTeX, RIS 및 EndNote XML로 내보낼 수 있습니다. 무료로 다운로드 할 수 있으며 크로스 플랫폼입니다.

편집 : 나는 이것을 몇 가지 문서에서 테스트했습니다. PDF 가져 오기가 올바른 형식의 참조에 적합합니다. LaTeX를 사용하여 만든 문서의 경우 "Smith, J"형식의 저자와 관련된 모든 참조 자료 또는 "J. Smith"등을 잘 가져 왔습니다. 저자가 회사 (단일 단어)이거나 참조가 불완전한 경우 제대로 작동하지 않습니다. 추출 된 참조는 쉽게 편집하고 BibTeX 등으로 내보낼 수 있습니다.

— sblair
소스

2

"이 기능은 충분한 가치를 제공하지 않으면 서 상당한 양의 리소스 (클라이언트 및 서버 측)를 소비했기 때문에 Mendeley 0.9.7에서 제거되었습니다. 향후 개선 된 형태로 다시 도입 할 계획입니다." ...... feedback.mendeley.com/forums/4941-mendeley-feedback/suggestions/…

— iceman

1

Westlaw 프로그램이 합법적 인 인용을 위해 그렇게하는 것을 보았지만 아마도 당신이 찾고있는 것이 아닐 수도 있습니다. 참조 관리자 는 학술 형식에 대해 이와 비슷한 작업을 수행 할 수 있지만 사용하지는 않았습니다.

— 카이 프로 II
소스

1

http://www.crossref.org/guestquery/#stqsearch를 시도 하십시오

이 문서는 참조 텍스트를 자동으로 구문 분석 할 수 있으며 온라인 기사에 대한 링크를 제공합니다.

— 안톤
소스

0

Zotero는 웹 컨텐츠를위한 firefox 플러그인입니다. 문서 / PDF와 유사한 도구가 있는지 확실하지 않습니다.

— 아비 나브
소스

1

나는 이것이 Zotero가 의도 한 바가 아니라는 것을 알고 있지만 Firefox가 관련 데이터가있는 텍스트 파일 또는 html 파일을 가리키면 Zotero가 참조를 인식하고 Zotero 라이브러리에 추가하고 내보낼 수 있습니다 전체 라이브러리를 원하는 형식으로 (Zotero가 여러 형식을 지원한다는 것을 알고 있습니다). 그러나 많은 파일에는 어려움이 있습니다.

— nedned

Zotero가 OP가 요구하는 것을 어떻게 수행하는지 알 수 없습니다. 설치했지만 참조를 구문 분석 할 수있는 옵션이없는 것 같습니다.

— Rikki

Zotero는 일반 텍스트가 아닌 특수 코딩 된 웹 사이트의 인용을 구문 분석합니다.

— Ochado

0

이것은 아마도 @Abhinav에 대한 주석으로 더 많이 속하지만 zotero는 여기에 설명 된 것처럼 구조적 데이터 만 처리합니다.

http://www.zotero.org/support/getting_stuff_into_your_library#importing_records_from_other_reference_tools

흥미로운 해킹은 각 인용을 선호하는 데이터베이스에서 검색 쿼리로 사용하는 프로그램을 작성한 다음 zotero와 같은 것을 사용하여 심판 정보를 생성하는 것입니다. citeUlike와 같은 서비스에서 구조화 된 정보를 다운로드 할 수도 있습니다. 당신이 그런 일을 끝내면 알려주세요! (그렇다면 github에 올리십시오.).

— 데이브 클라크
소스