스캔 한 책의 PDF가 있습니다.
OCR을 수행하고 PDF 또는 문서로 다시 저장할 수있는 옵션을 제공하는 무료 소프트웨어를 찾고 있습니다.
하나 있습니까?
스캔 한 책의 PDF가 있습니다.
OCR을 수행하고 PDF 또는 문서로 다시 저장할 수있는 옵션을 제공하는 무료 소프트웨어를 찾고 있습니다.
하나 있습니까?
답변:
Adobe Acrobat Pro 30 일 평가판을 다운로드하고 'OCR 텍스트 인식'기능 ( '문서> OCR 텍스트 인식> OCR을 사용하여 텍스트 인식 ...')을 사용할 수 있습니다. 설정 대화 상자에서 출력 스타일로 '검색 가능한 이미지'를 선택하십시오. 이렇게하면 페이지 이미지는 유지되지만 OCR 텍스트가 포함되므로 문서를 검색하고 텍스트를 선택, 복사 및 붙여 넣기 할 수 있습니다.
OCR을 실행 한 후 OCR에서 'OCR 의심 찾기'기능 사용에 대해 확신이없는 단어를 확인하거나 수정해야합니다.
인터넷에 다음 제품이 나와 있지만 아직 사용하지 않았습니다.
온라인 OCR
OCR 터미널은 스캔 한 이미지와 pdf 파일에서 OCR (Optical Character Recognition)을 수행하여 편집 가능한 텍스트 검색 가능한 문서로 렌더링하는 온라인 OCR 서비스입니다.
Free-OCR.com은 무료 온라인 OCR (광학 문자 인식) 도구입니다. 이를 사용하여 제공 한 모든 이미지에서 OCR을 수행 할 수 있습니다.
이 서비스는 무료이며 등록이 필요하지 않습니다. 우리는 또한 귀하의 이메일 주소가 필요하지 않습니다.
이미지 파일을 업로드하십시오. Free-OCR은 JPG, GIF, TIFF BMP 또는 PDF 중 하나만 사용합니다 (첫 페이지 만 ). 유일한 제한은 이미지가 2MB보다 크거나 5000 픽셀보다 크지 않아야하며 시간당 10 개의 이미지 업로드 제한이 있다는 것입니다.
Maestro Recognition Server 는 상업적이지만 온라인 시범 데모가 있습니다.
자유 소프트웨어
FreeOCR- 이미지 전용.
FreeOCR은 Tesseract GUI라고도하는 Tesseract free ocr 엔진을 포함한 스캔 및 OCR 프로그램입니다. 여기에는 Windows 설치 프로그램이 포함되어 있으며 사용하기가 매우 간단하며 여러 페이지로 된 문서, 팩스 문서 및 Tesseract 엔진 자체에서 읽을 수없는 압축 Tiff를 포함한 대부분의 이미지 유형을 지원합니다. 이제 Twain 스캔이 가능합니다.
pdfsandwich - pdf- > pdf 변환기.
pdfsandwich는 OCR 스캔 도서 또는 저널을위한 명령 줄 도구입니다. 여러 열 텍스트의 경우에도 페이지 레이아웃을 인식 할 수 있습니다.
기본적으로 pdfsandwich는 convert, cuneiform, gs 및 hocr2pdf 바이너리를 호출하는 래퍼 스크립트입니다. Unix 시스템에서 실행되는 것으로 알려져 있으며 Linux 및 MacOS X에서 테스트되었습니다. 다중 프로세서 시스템에서 병렬 처리를 지원합니다.
Imagemagick를 설치하십시오 . cmd 창 또는 터미널을 엽니 다.
convert myfile.pdf myfile-%02d.jpg
출력은 pdf, myfile-00.jpg, myfile-01.jpg 등의 각 페이지마다 1 jpg 파일이됩니다.
ocr 프로그램을 통해 각 이미지를 전달하십시오. 나는 이것에 대해 많은 경험이 없지만 많은 선택이있는 것 같습니다.
각 텍스트 페이지를 pdf로 다시 변환하십시오. imagemagick을 사용하여이 작업을 다시 수행 할 수 있지만 다른 방법도 있습니다.
convert page-%02d.txt -density 300x300 -compress jpeg final.pdf
PDFCubed.com을 사용해보십시오. 설치할 것이 없습니다. 모두 온라인으로 이루어집니다. 웹, 이메일 또는 보관 용 계정을 통해 처리 할 문서를 보낼 수 있습니다. 스캔 한 PDF 및 TIF는 검색 가능한 텍스트 PDF로 변환 된 다음 웹, 전자 메일 또는 보관 용 계정을 통해 검색 할 수 있습니다.