Linux 용 Scan-to-PDF 소프트웨어?


18

Fujitsu ScanSnap S500 문서 스캐너를 사용하여 종이 문서를 검색 가능한 PDF로 스캔하는 워크 플로우가 있습니다. 번들 소프트웨어의 열렬한 팬은 아니지만 사용하기가 간단합니다. 용지 더미를 맨 위에 놓고 녹색 버튼을 누르면 검색 가능한 PDF가 나옵니다.

이제 Linux (Ubuntu 10.10)에서 비슷한 작업을하고 싶습니다. 스캐너는 기본적으로 지원됩니다.

내가 검토 한 gscan2pdfXSane:

  • XSane 강력 해 보이지만 워크 플로 솔루션으로는 적합하지 않습니다.
  • gscan2pdf "버튼 누름, PDF 가져 오기"에 이상적이지만 여전히 100 %는 아닙니다.

추천 할 수있는 다른 소프트웨어가 있습니까 (무료 또는 기타)?


pdf-cups를 사용하지만 검색 할 수없는 이미지입니다.
RobotHumans

1
gscan2pdf에 '100 %가 없습니다'는 무엇입니까?
digitxp

@digitxp 나는 어떤 제품에 대한 문제, 좋아하는 것과 싫어하는 것의 세탁 목록으로 질문을 어지럽히고 싶지 않았습니다. 그러나 당신이 물어 gscan2pdf보니 '언 페이퍼 링'으로 이상한 유물이 있었기 때문에 OCR은 대부분 사용할 수 없었으며 (일부는 다른 엔진보다 낫습니다) 전반적으로 원래 솔루션만큼 능률화되지 않았습니다. 어쨌든 내 질문의 본질은 다양한 솔루션을 시도하고 나에게 가장 적합한 것을 볼 수 있도록 다른 것이 무엇인지 확인하는 것입니다.
NPE

@digitxp 방금 이전 의견을 다시 읽었으며 꽤 부정적인 것처럼 들립니다. 그것은 의도가 아니 었습니다. gscan2pdf실제로 내가 찾고있는 것에 상당히 가깝지만 원래 솔루션에 비해 슬프게 부족한 영역이 있습니다.
NPE

답변:


18

올해 초에 조사 할 때 찾은 것들이 있습니다. 죄송합니다. 등급이 제한되어 하이퍼 링크를 두 개 이상 게시 할 수 없으므로 Google에 연결해야합니다.

gscan2pdf

백엔드에 다양한 OCR 엔진을 사용할 수있는 정말 좋은 GUI 시스템. 이것은 아마도 원터치 솔루션을 충족시킬 것입니다 (그리고 digitxp는 이미 언급했습니다).

Tesseract OCR 엔진

gscan2pdf와 함께 사용할 수 있습니다.

오크로 푸스

나는 광범위한 훈련없이 텍스트를 인식하지 못했기 때문에 문어에 그리 멀지 않았습니다. 아마도 책에는 좋을지 모르지만 청구서 등으로는 효과가 없었습니다. YMMV.

설형 문자

Cuneiform으로 최고의 성공을 거두었으며 다음 워크 플로와 유사한 명령을 스크립팅하여 검색 가능한 PDF를 만들 수있었습니다.

# extract images from scans
# (not shown)

# convert to black-and-white
optimize2bw -n -i nuance-test.png  -o bw.bmp                               

# do the OCR process and generate an hOCR file
cuneiform -l eng -f hocr -o nuance-test.html bw.bmp

# reassemble the original image with the hOCR file to generate a new PDF
hocr2pdf -s -i nuance-test.png -o nuance-test.hocr.pdf < nuance-test.html  

정확한 이미지 패키지도 설치해야합니다.

OCR'ing PDF의 Cuniformhocr2pdf 사용을위한 다양한 오픈 소스 프로젝트 :

  • 손목 시계
  • 아르 키 비스타

무엇을 알게되었는지 알려주세요!

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.