PDF에서 OCR을 제거하는 방법?

14

한동안 Google을 검색했지만 질문에 대한 답변을 찾을 수 없습니다.

최근에 Adobe Acrobat으로 스캔 한 문서에 원치 않는 OCR 레이어가 있습니다. 제대로 OCR되지 않았으며 일부 정보를 수정하고 싶지만 OCR이 원하는 정보를 지우고 있습니다. 파일을 TIF로 변환했지만 (매우) 상당한 품질 손실이 나타났습니다. 다른 PDF로 인쇄하면 텍스트가 유지되거나 이미지 품질이 저하된다고 들었습니다.

최대한 빨리이 문제를 해결하는 데 도움을 주셔서 감사합니다.

감사합니다.

— 사누
소스

6

Acrobat Pro DC에서 적절한 명령은 "숨겨진 정보 제거"이며, "보호"및 "편집"도구를 통해 사용할 수 있습니다.

명령을 실행할 때 숨겨진 정보 만 검색하지만 문서는 변경하지 않습니다. 그런 다음 제거 할 정보를 Acrobat에 알려야합니다. 이 경우 결과 창에서 "숨겨진 텍스트"를 선택한 다음 제거 버튼을 클릭하고 변경된 문서를 저장하십시오.

— 사용자 1125483
소스

"숨겨진 정보 제거"를 사용했지만 어떤 이유로 특정 페이지에서 이미지의 일부만 제거합니다. 그러나 답장을 보내 주셔서 감사합니다.

— Sanoo

이것은 보편적으로 사실이 아닙니다. 어떻게 든 (아마도 macOS PDFKit 버그) 내 ABBYY FineReader-OCRed 텍스트가 손상되었으며 수정 → 숨김 제거에서 "숨겨진 텍스트"를 확인하면 문제없이 텍스트가 제거되었습니다. 그런 다음 향상된 스캔 → 텍스트 인식을 사용하여 Acrobat 자체에서 OCR을 수행 할 수있었습니다.

— Nicholas Riley

숨겨진 텍스트를 제거한 후에도 "ClearScan"(예 : "편집 가능한 텍스트 및 이미지")으로 OCR을 실행할 수 없다는 문제가 있습니다. 텍스트 레이어가 사라진 것처럼 보이지만 OCR을 실행하면 "Acrobat이 인식 할 수 없습니다. 페이지에 렌더링 가능한 텍스트가 있습니다."라는 오류가 발생합니다.

— user1125483

1

많은 실험을 한 결과, Adobe Acrobat에서 Adobe PDF로 인쇄하면 OCR이없고 문서의 품질을 잃지 않고 문서를 인쇄합니다 (처음에는 눈에 띄지 않는 해상도가 손실 됨).

그러나 많은 사이트에서이 기능이 작동하지 않는다고 주장합니다. Foxit Reader 및 OneNote와 같은 다른 프린터도 사용해 보았지만 품질이 떨어졌습니다. JPEG도 동일했습니다.

마일리지가 다를 수 있습니다.

참고 : 나는이 스레드가 내 것보다 더 나은 대답을 찾기 위해 답이없는 것으로 표시하고 있습니다.

— 사누
소스

1

(일년 전...)

예를 들어 문서를 스캔하여 Word에서 PDF로 인쇄하지 않으면 Adobe를 사용하여 쉽게 제거 할 수 있습니다.

문서, 문서 검사를 선택 하면 숨겨진 텍스트 (OCR)를 제거 할 수 있습니다.

— 프랜
소스

답장을 보내 주셔서 감사합니다. 최대한 빨리 테스트하여 알려 드리겠습니다. 답변 해주셔서 감사합니다!

— Sanoo

나는 이것에 대해 이미 언급했다고 생각했지만 문제는 Acrobat DC Pro가 있고 해당 메뉴가 제거되었다는 것입니다. 어쨌든 답변 주셔서 감사합니다.

— Sanoo

1

Acrobat Pro의 경우 : '보호'아래의 '숨겨진 정보 제거'를 사용하십시오. 모두 선택, 실행, OCR이 사라졌습니다

— 재즈
소스

1

Acrobat X의 보호에는 모든 문서를 제거하지만 볼 수있는 내용 (OCR의 텍스트 레이어 포함)을 제거하여 문서를 평평한 비트 맵으로 변환하는 문서 정리 버튼이 있습니다.

— 데이브
소스

1

JPEG로 내 보낸 다음 JPEG 'acrobat의 파일 결합'에서 내보냈습니다. 이것은 원래 단어 doc였으며 PDF로 변환 된 doc에서 온 것입니다. OCR이 사라졌습니다.

— 란도 칼
소스

0

이 무료 PDF Redactor 를 수행하는 도구를 만들었습니다 . 이미지를 업로드하고 수정을 클릭하면 PDF가 평평 해지고 OCR이 제거됩니다. 원하는 경우 문서에 편집 표시를 그릴 수도 있습니다.

— 병리학
소스