스캔 한 이미지를 PDF로 검색 가능한 PDF 파일로 변환하려면 어떻게해야합니까? [닫은]


19

스캔 한 책의 PDF가 있습니다.

OCR을 수행하고 PDF 또는 문서로 다시 저장할 수있는 옵션을 제공하는 무료 소프트웨어를 찾고 있습니다.

하나 있습니까?


pdf의 이미지를 텍스트로 변환 하시겠습니까?
DaveParillo

예,하지만 txt 파일을 출력으로 원하지 않습니다. 정확히 pdf를보고 싶지만 Ctrl + F를 누르고 단어 등을 표시하는 옵션이 있습니다.

텍스트 서식 및 스타일을 잃지 않고이 PDF를 변환하는 데 시간이 많이 걸립니다. 스캔 한 이미지에서 문서를 올바르게 보존 할 수있는 OCR 소프트웨어를 아직 찾지 못했습니다. 당나귀 작업 준비 (예 : 교정 등) :)

답변:


5

Adobe Acrobat Pro 30 일 평가판을 다운로드하고 'OCR 텍스트 인식'기능 ( '문서> OCR 텍스트 인식> OCR을 사용하여 텍스트 인식 ...')을 사용할 수 있습니다. 설정 대화 상자에서 출력 스타일로 '검색 가능한 이미지'를 선택하십시오. 이렇게하면 페이지 이미지는 유지되지만 OCR 텍스트가 포함되므로 문서를 검색하고 텍스트를 선택, 복사 및 붙여 넣기 할 수 있습니다.

OCR을 실행 한 후 OCR에서 'OCR 의심 찾기'기능 사용에 대해 확신이없는 단어를 확인하거나 수정해야합니다.


Adobe는 무료가 아니지만, 그 중에서도 가장 뛰어난 OCR 솔루션입니다.
James Healy

4

Google 계정이 있다면 이제 Google 문서 도구에 PDF 파일을 업로드하고 OCR을 수행하는 기능이 포함됩니다.

나는 그것을 직접 시도했고 인정받는 형식의 PDF에서 공정하게 찌릅니다.

서식은 거의 파괴되었지만 텍스트는 살아남은 것 같습니다.


4

인터넷에 다음 제품이 나와 있지만 아직 사용하지 않았습니다.

온라인 OCR

OCR 터미널

OCR 터미널은 스캔 한 이미지와 pdf 파일에서 OCR (Optical Character Recognition)을 수행하여 편집 가능한 텍스트 검색 가능한 문서로 렌더링하는 온라인 OCR 서비스입니다.

무료 OCR

Free-OCR.com은 무료 온라인 OCR (광학 문자 인식) 도구입니다. 이를 사용하여 제공 한 모든 이미지에서 OCR을 수행 할 수 있습니다.
이 서비스는 무료이며 등록이 필요하지 않습니다. 우리는 또한 귀하의 이메일 주소가 필요하지 않습니다.
이미지 파일을 업로드하십시오. Free-OCR은 JPG, GIF, TIFF BMP 또는 PDF 중 하나만 사용합니다 (첫 페이지 만 ). 유일한 제한은 이미지가 2MB보다 크거나 5000 픽셀보다 크지 않아야하며 시간당 10 개의 이미지 업로드 제한이 있다는 것입니다.

Maestro Recognition Server 는 상업적이지만 온라인 시범 데모가 있습니다.

자유 소프트웨어

FreeOCR- 이미지 전용.

FreeOCR은 Tesseract GUI라고도하는 Tesseract free ocr 엔진을 포함한 스캔 및 OCR 프로그램입니다. 여기에는 Windows 설치 프로그램이 포함되어 있으며 사용하기가 매우 간단하며 여러 페이지로 된 문서, 팩스 문서 및 Tesseract 엔진 자체에서 읽을 수없는 압축 Tiff를 포함한 대부분의 이미지 유형을 지원합니다. 이제 Twain 스캔이 가능합니다.

pdfsandwich - pdf- > pdf 변환기.

pdfsandwich는 OCR 스캔 도서 또는 저널을위한 명령 줄 도구입니다. 여러 열 텍스트의 경우에도 페이지 레이아웃을 인식 할 수 있습니다.

기본적으로 pdfsandwich는 convert, cuneiform, gs 및 hocr2pdf 바이너리를 호출하는 래퍼 스크립트입니다. Unix 시스템에서 실행되는 것으로 알려져 있으며 Linux 및 MacOS X에서 테스트되었습니다. 다중 프로세서 시스템에서 병렬 처리를 지원합니다.


방금 pdfsandwich를 사용했습니다. 그것은 작동하고 무료입니다! :) 이것은 확실히 내 논문에 도움이 될 것입니다, 감사합니다!
Eddy

pdfsandwich가 이동 한 것 같습니까? tobias-elze.de/pdfsandwich
pioto

@ pioto : 위의 pdfsandwich를 추가 한 것은 아니지만 제안한대로 링크를 수정했습니다.
harrymc 2016 년

2

Cuneiform + hocr2pdf + Ghostscript : DIY 오픈 소스 솔루션.

나는 게시 대답 관련된 솔루션 요약 버전 지금은 오픈 소스의 설형 문자 OCR 시스템과 hocr2pdf을 함께 고스트 스크립트 함께 PDF 페이지를 퍼팅을.

그것은 특별히 리눅스를위한 것이었지만 Windows 용 Cuneiform과 Ghostscript도 얻을 수 있습니다. 그래도 hocr2pdf 또는 이와 동등한 것이 확실하지 않습니다.


1

다음은 매우 이상한 방법으로, 웹 사이트에서 Google 색인을 생성하고 OCR로 검색 한 다음 검색하는 방법입니다.


그래, 나도 그것을 보았다 ... 이상한 실제로 :) 나는 그것을하고 결국 수 있습니다 ...

0

Imagemagick를 설치하십시오 . cmd 창 또는 터미널을 엽니 다.

convert myfile.pdf myfile-%02d.jpg

출력은 pdf, myfile-00.jpg, myfile-01.jpg 등의 각 페이지마다 1 jpg 파일이됩니다.

ocr 프로그램을 통해 각 이미지를 전달하십시오. 나는 이것에 대해 많은 경험이 없지만 많은 선택이있는 것 같습니다.

각 텍스트 페이지를 pdf로 다시 변환하십시오. imagemagick을 사용하여이 작업을 다시 수행 할 수 있지만 다른 방법도 있습니다.

convert page-%02d.txt -density 300x300 -compress jpeg final.pdf

0

귀하의 요청은 문제에 대한 복잡한 해결책 인 것 같습니다.하지만 문제를 올바르게 이해하지 못할 수도 있습니다. 여하튼:

PDF 페이지에 직접 데이터를 입력 할 수있는 PDF 라이터를 받으십시오.


0

PDFCubed.com을 사용해보십시오. 설치할 것이 없습니다. 모두 온라인으로 이루어집니다. 웹, 이메일 또는 보관 용 계정을 통해 처리 할 문서를 보낼 수 있습니다. 스캔 한 PDF 및 TIF는 검색 가능한 텍스트 PDF로 변환 된 다음 웹, 전자 메일 또는 보관 용 계정을 통해 검색 할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.