스캔 한 페이지를 사용하여 텍스트를 선택하여 PDF를 작성하는 방법은 무엇입니까?


32

오늘 저는 공급 업체로부터 PDF를 받았으며 서명이있는 여러 인쇄 및 스캔 페이지가 포함되어 있습니다. Acrobat Reader DC에서 열었습니다. 그러나 놀랍게도 분명하게 스캔 된 이미지의 텍스트를 선택하여 텍스트로 복사 할 수 있습니다. 스크린 샷을 참조하십시오 :

선택 가능한 텍스트로 스캔 한 PDF

복사 된 텍스트에 실수가 포함되어 있기 때문에이 뒤에 약간의 OCR이 있습니다. 그러나 이것이 어떻게 가능합니까? 나는 이것을 전에 본 적이 없다. 어떻게 이것을 만들 수 있는가?


4
github.com/gkovacs/pdfocr 와 같은 패키지를 사용하면 기존 이미지 PDFS에서이를 수행 할 수 있습니다
exussum

Batch-OCR의 많은 PDF 에서 얻은 결과와 어떻게 다른 가요?
Dmitry Grigoryev와

@DmitryGrigoryev 이전에 이런 유형의 PDF를 본 적이 없었으므로 그게 무엇인지 물었습니다. 답변에 프린터의 펌웨어 OCR 또는 OCRMyPDF는 없으며 질문과 답변은 매우 다릅니다. OCR과 PDF에 관한 두 가지 질문을 제외하고는 중복 된 내용이 없습니다.
Vojtěch Dohnal

글쎄, 나는 당신이 게시 한 것과 다른 OCR PDF를 본 적이 없으므로 귀하의 질문이 나에게 이상하게 느껴집니다.
Dmitry Grigoryev

답변:


53

이것은 (여기에 다른 답변과는 달리) Acrobat과 전혀 관련이 없습니다.

"PDF로 저장"을 선택하고 설정에서 "검색 가능"확인란을 선택하면 대부분의 전문 문서 스캐너와 대부분의 반 전문가 용 스캐너가 자동으로 OCR을 수행합니다. 저렴한 "소비자 등급"모델은 연결된 PC에서 OCR을 수행하며 일반적인 네트워크 스캐너는 내부적으로 OCR을 수행합니다.

"검색 가능"이라는 단어는 스캐너가 OCR을 수행 한 다음 스캔 된 비트 맵이 포함 된 페이지를 생성하고 OCR에서 보이지 않는 문자 (각각 비트 맵의 ​​각 문자 위에 놓임)로 오버레이합니다.

이렇게하면 마치 "비트 맵"을 마술처럼 검색하고 선택, 복사 및 붙여 넣기 할 수 있습니다. 그러나 전혀 마법이 아닙니다. 실제로는 보이지 않는 텍스트를 복사하고 있습니다.

또한 스캐너는 재사용되는 많은 작은 타일에서 큰 이미지를 합성하는 등의 추가 마법을 수행 할 수도 있습니다. 이로 인해 실제로 가능한 것보다 훨씬 작은 문서 크기가 발생하지만 Xerox 가 OCR을 수행하지 않을 때에도 아이러니하게도 청구서 내용을 변경 하는 것과 같은 재미있는 놀라움으로 이어질 수 있습니다. 펌웨어에서.


그렇습니다. 이것이 아마도 그들이 만든 방법 일 것입니다. Adobe Acrobat을 사용하고있을 것입니다.
Vojtěch Dohnal

스캔 한 이미지 뒤에 있는 모든 텍스트를 OCR이 각 텍스트 노드를 찾은 위치에보고 한 곳에 배치했습니다.
Thorbjørn Ravn Andersen

10

그러나 이것이 어떻게 가능합니까?

기본적으로 프로그램은 입력 파일에서 OCR을 수행 한 다음 그림 위에 보이지 않는 텍스트 레이어를 배치합니다. 또는 그림 아래에 보이는 텍스트 레이어를 배치 하여 동일한 효과를 낼 수도 있습니다.

무언가를 선택하면 텍스트 레이어가 선택되므로 그림은 중요하지 않습니다.

어떻게 만들 수 있습니까?

몇 가지 방법이 있습니다. Acrobat이 이미 제안되었으므로 무료 옵션을 추가 할 것입니다 (다행스럽게도 Windows에서 해당 옵션을 사용하도록 강요하지 않아도 됨).

PDF-XChange 뷰어

이것은 Tracker Software기본 Windows 프로그램 입니다. 프리웨어 버전은 32 비트 접두사로 32 비트 버전을 사용하는 경우 Wine에서 제대로 실행 되므로 Windows, macOS 및 Linux에서 사용할 수 있습니다. 마지막 두 경우에는 각각 PlayOnMac 또는 PlayOnLinux가 필요합니다.

Ask Ubuntu에 남겨둔 이 답변 의 사진은 다음과 같습니다 .

와인 아래 PDF-XChange Viewer의 스크린 샷

OCRmyPDF

이것은 Ghostscript, Tesseract 및 Unpaper를 기반으로 Python으로 작성된 다중 플랫폼 프로그램입니다 . 문서에서 :

OCRmyPDF의 기능

OCRmyPDF는 PDF의 각 페이지를 분석하여 컨텐츠 손실없이 해당 페이지의 모든 정보를 캡처하는 데 필요한 색 공간 및 해상도 (DPI)를 결정합니다. Ghostscript를 사용하여 페이지를 래스터 화 한 다음 래스터 화 된 이미지에서 OCR을 수행하여 OCR "레이어"를 만듭니다. 그런 다음 레이어는 원본 PDF에 다시 접목됩니다.

데비안 및 우분투 파생물에 쉽게 설치할 수 있습니다.

apt-get install ocrmypdf

또는 macOS에서 :

brew tap jbarlow83/ocrmypdf
brew install ocrmypdf

Windows에서는 Docker 이미지를 사용해야합니다. 자세한 내용은 공식 문서를 참조하십시오.

사용법은 매우 간단하며 더 나은 결과를 얻으 려면 선택적 -d(데스크) 및 -c(깨끗한) 매개 변수를 사용하는 것이 좋습니다 . OCR 프로세스를 실행하기 전에 모든 페이지를 똑 바르게하고 작은 점 / 결함을 정리합니다.

언어를로 제공 할 수 있습니다 -l.

이탈리아어로 작성된 이 기울어 진 문서 에서 가져온 예는 다음과 같습니다 .

OCRmyPDF의 예

내가 사용한 명령은 다음과 같습니다.

ocrmypdf -l ita -d -c input.pdf output.pdf

온라인 도구

동일한 작업을 수행하는 몇 가지 온라인 도구가 있습니다. 주목할 만하게 , PDF24는 무료 웹 기반 버전의 OCRmyPDF 를 호스팅하며 제한없이 사용할 수 있습니다.

참조 :


이 답변에 감사드립니다. OCRMyPDF를 사용해 보았지만 매우 잘 작동했지만 불행히도 필요한 언어 지원이 아직 성숙하지 않아 결과를 아직 사용할 수 없었습니다.
Vojtěch Dohnal

@ VojtěchDohnal 어떤 언어에 관심이 있습니까? Tesseract 관련 언어 팩을 설치 했습니까? 여기에 목록을 참조하십시오 macports.org/ports.php?by=name&substr=tesseract-
안드레아 Lazzarotto

4

Acrobat OCR 기능 때문일 수 있습니다 .

Acrobat은 수십 개 언어로 된 PDF 또는 이미지 파일의 텍스트를 인식 할 수 있습니다. OCR로 스캔 할 문서 나 이미지를 연 다음 툴바의 오른쪽 상단에있는 파란색 도구 단추를 클릭하기 만하면됩니다. 사이드 바에서 텍스트 인식 탭을 선택한 다음이 파일에서 단추를 클릭하십시오.

...

텍스트가 인식되면 이제 모든 일반 마크 업 도구를 사용하여 PDF를 마크 업할 수 있습니다 . 텍스트를 강조 표시하거나 제거 할 수 있습니다 . 텍스트 인식 자체보다 정확도가 낮지 만 감지 된 형식으로 텍스트를 복사 할 수도 있습니다.


이것은 Reader에서도 작동합니까? 다른 문서는 나를 위해 이런 식으로 작동하지 않습니다 ...
Vojtěch Dohnal


3

에서 Adobe 웹 사이트

스캔 한 PDF 파일에서 텍스트 인식

종이 문서를 PDF로 스캔하면 실제로 해당 문서의 사진을 찍는 것입니다. 사진 및 기타 인쇄 된 이미지에는 유용하지만 특정 단어 나 구를 찾아야하는 200 페이지짜리 문서가 있다면 어떨까요? Acrobat을 사용하여 스캔 한 파일의 텍스트를 인식하여 텍스트 내용을 검색하고 사용할 수있게합니다.

  1. 스캔 한 문서를 Acrobat에서 연 상태에서 도구 창을 열고 텍스트 인식 패널을 확장하십시오. 도구 패널에 "텍스트 인식"이 보이지 않으면 오른쪽 상단 모서리에있는 메뉴를 선택하여 추가 할 수 있습니다 (아래 이미지 – 작은 빨간색 화살표가 가리키는 위치를 참조하십시오. 여기를 클릭하십시오).
  2. “이 파일에서”를 클릭하여 열려있는 문서를 스캔하십시오. 텍스트 인식 상자가 나타나면 기본 설정을 그대로 사용하고 "확인"을 클릭하면됩니다. Acrobat은 이미지를 사용 가능한 텍스트로 변환합니다. 테스트하려면 내용 편집 패널에서 단어 나 문장을 편집하십시오. 굉장하지 않습니까!?

고맙지 만 Reader DC에서 PDF를 열었을 때 특별한 작업은 없었습니다. 스캔 한 페이지가있는 다른 PDF 문서는 자동으로 작동하지 않습니다 ...
Vojtěch Dohnal

5
OCR은 파일을 받기 전에 완료되었으며 텍스트가 인식되면 pdf와 함께 저장됩니다.
Máté Juhász

@ VojtěchDohnal 당신은 아마 독자뿐만 아니라 완전한 곡예사를 필요로합니다
Thorbjørn Ravn Andersen
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.