그러나 이것이 어떻게 가능합니까?
기본적으로 프로그램은 입력 파일에서 OCR을 수행 한 다음 그림 위에 보이지 않는 텍스트 레이어를 배치합니다. 또는 그림 아래에 보이는 텍스트 레이어를 배치 하여 동일한 효과를 낼 수도 있습니다.
무언가를 선택하면 텍스트 레이어가 선택되므로 그림은 중요하지 않습니다.
어떻게 만들 수 있습니까?
몇 가지 방법이 있습니다. Acrobat이 이미 제안되었으므로 무료 옵션을 추가 할 것입니다 (다행스럽게도 Windows에서 해당 옵션을 사용하도록 강요하지 않아도 됨).
PDF-XChange 뷰어
이것은 Tracker Software 의 기본 Windows 프로그램 입니다. 프리웨어 버전은 32 비트 접두사로 32 비트 버전을 사용하는 경우 Wine에서 제대로 실행 되므로 Windows, macOS 및 Linux에서 사용할 수 있습니다. 마지막 두 경우에는 각각 PlayOnMac 또는 PlayOnLinux가 필요합니다.
Ask Ubuntu에 남겨둔 이 답변 의 사진은 다음과 같습니다 .
OCRmyPDF
이것은 Ghostscript, Tesseract 및 Unpaper를 기반으로 Python으로 작성된 다중 플랫폼 프로그램입니다 . 문서에서 :
OCRmyPDF의 기능
OCRmyPDF는 PDF의 각 페이지를 분석하여 컨텐츠 손실없이 해당 페이지의 모든 정보를 캡처하는 데 필요한 색 공간 및 해상도 (DPI)를 결정합니다. Ghostscript를 사용하여 페이지를 래스터 화 한 다음 래스터 화 된 이미지에서 OCR을 수행하여 OCR "레이어"를 만듭니다. 그런 다음 레이어는 원본 PDF에 다시 접목됩니다.
데비안 및 우분투 파생물에 쉽게 설치할 수 있습니다.
apt-get install ocrmypdf
또는 macOS에서 :
brew tap jbarlow83/ocrmypdf
brew install ocrmypdf
Windows에서는 Docker 이미지를 사용해야합니다. 자세한 내용은 공식 문서를 참조하십시오.
사용법은 매우 간단하며 더 나은 결과를 얻으 려면 선택적 -d
(데스크) 및 -c
(깨끗한) 매개 변수를 사용하는 것이 좋습니다 . OCR 프로세스를 실행하기 전에 모든 페이지를 똑 바르게하고 작은 점 / 결함을 정리합니다.
언어를로 제공 할 수 있습니다 -l
.
이탈리아어로 작성된 이 기울어 진 문서 에서 가져온 예는 다음과 같습니다 .
내가 사용한 명령은 다음과 같습니다.
ocrmypdf -l ita -d -c input.pdf output.pdf
온라인 도구
동일한 작업을 수행하는 몇 가지 온라인 도구가 있습니다. 주목할 만하게 , PDF24는 무료 웹 기반 버전의 OCRmyPDF 를 호스팅하며 제한없이 사용할 수 있습니다.
참조 :