여러 PDF 파일을 비교하는 방법?

교수님은 방금 전체 학기의 모든 슬라이드 (17 PDF)의 업데이트 된 세트를 업로드하여 현재 명확한 시험 자료로 언급했습니다.

문제는 이전 슬라이드 세트에 대해 많은 메모를 작성했으며 내가 넣은 모든 작업을 잃고 싶지 않다는 것입니다. 교수가 무작위로 새 슬라이드를 삭제하거나 추가했기 때문에 선호합니다. 이전 슬라이드 세트와 새 슬라이드 세트를 비교하는 작업을 자동화하십시오. 어떤 아이디어?

pdf comparison ocr

— 사용자 3545063
소스

시스템이나 도구를 언급하지 않았으므로 스캔 된 이미지가 아니라고 가정하고 텍스트를 비교하는 솔루션이 있습니다. 유닉스, Cygwin에서 작동해야하며 Msys도 생각합니다.

$ pdftotext.exe old-slide.pdf
$ pdftotext.exe new-slide.pdf
$ diff -uN old-slide.txt new-slide.txt| tee -a slides.diff

pdftotext의 부분 poppler동안 diff의이diffutils

물론 PDF 파일에 시퀀스 이름과 비슷한 이름이 있으면 모든 파일에 대해 루프를 사용하여 자동화 할 수 있습니다.

— matzeri
소스