오늘 저는 공급 업체로부터 PDF를 받았으며 서명이있는 여러 인쇄 및 스캔 페이지가 포함되어 있습니다. Acrobat Reader DC에서 열었습니다. 그러나 놀랍게도 분명하게 스캔 된 이미지의 텍스트를 선택하여 텍스트로 복사 할 수 있습니다. 스크린 샷을 참조하십시오 : 복사 된 텍스트에 실수가 포함되어 있기 때문에이 뒤에 약간의 OCR이 있습니다. 그러나 이것이 어떻게 가능합니까? …
이것은 1 년 전에 여기에서 논의되었습니다 : 많은 PDF 파일에 대한 배치 OCR (아직 OCR이 아님)? 아직 OCR되지 않은 OCR PDF를 배치하는 방법이 있습니까? 이것은 두 가지 문제를 다루는 현재 상태입니다. 배치 OCR PDF 윈도우 Acrobat – OCR을 일괄 처리하는 가장 간단한 ocr 엔진입니다. 유일한 문제는 1) 이미 OCR 된 …
닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 질문을 업데이트하여 수퍼 유저에게 주제가 되도록하십시오 . 휴일 3 년 전 . 스캔 한 책의 PDF가 있습니다. OCR을 수행하고 PDF 또는 문서로 다시 저장할 수있는 옵션을 제공하는 무료 소프트웨어를 찾고 있습니다. 하나 있습니까?
닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 질문을 업데이트하여 수퍼 유저에게 주제가 되도록하십시오 . 휴일 3 년 전 . 여러 번 텍스트 단락만으로 비트 맵을 보았 기 때문에 사용 된 글꼴, 단락 정렬, 줄 간격 및 색상, 굵은 체, 기울임 꼴을 식별하는 방법을 …
한동안 Google을 검색했지만 질문에 대한 답변을 찾을 수 없습니다. 최근에 Adobe Acrobat으로 스캔 한 문서에 원치 않는 OCR 레이어가 있습니다. 제대로 OCR되지 않았으며 일부 정보를 수정하고 싶지만 OCR이 원하는 정보를 지우고 있습니다. 파일을 TIF로 변환했지만 (매우) 상당한 품질 손실이 나타났습니다. 다른 PDF로 인쇄하면 텍스트가 유지되거나 이미지 품질이 저하된다고 들었습니다. 최대한 …
나는 지난 주말에 조부모님의 집으로 끝났습니다. 할머니는 가족 역사에 관한이 거대한 (~ 1400 페이지) 책을 꺼내서 1630 년 정도 거슬러 올라갑니다. 내가 거대 대단하다, 나는 모든 정보를 데이터베이스에 저장하고 웹에서 사용할 수 있다고 생각했다. 나는 모든 웹 프로그래밍과 정규 표현식을 다룰 수 있지만 모르는 것은 책에서 컴퓨터로 텍스트를 얻는 가장 …
이 PDF는 Abbyy Finereader 10에 의해 제작되었습니다 : http://ebooks.zeitr.org/from_abbyy.pdf 첫 번째 문장을 복사하여 붙여 넣으면 다음과 같은 텍스트 결과를 얻을 수 있습니다. Der»Bund Deutscher Gymnastik-Schulleiter«는 1955. Ghostscript 9.02 (64 비트 Windows)로 처리 한 후이 파일을 얻습니다. http://ebooks.zeitr.org/after_ghostscript.pdf 이제 첫 번째 문장이 이상하게 보입니다-각 단어의 마지막 문자 앞에 여분의 공간이 있습니다. …
닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 질문을 업데이트하여 수퍼 유저에게 주제가 되도록하십시오 . 휴일 오년 전에 . Google 데스크톱 검색 (Vista에 있음)을 사용하는데 모든 PDF 파일이 아카이브 폴더에서 인식되는 것은 아닙니다. ' 스캔 이미지가 포함 된 PDF 파일 '은 색인이 생성되지 않으므로 …
실수를 수정하는 데 유용한 GUI가있는 SimpleOCR을 사용 했습니다 . 불행히도 많은 실수를합니다! (그리고 다른 버그와 한계가 있습니다) 반면 Tesseract 는 더 정확하지만 GUI가 전혀 없습니다. 내 질문은 좋은 GUI 와 낮은 오류율 을 가진 Windows 용 무료 OCR 프로그램 이 있습니까? SimpleOCR과 비슷한 OCR 단어를 편집하는 동안 의심스러운 단어를 강조 …
OCR 처리에는 시간이 걸립니다. 여러 CPU 코어를 사용하면 처리 속도가 빨라집니다. Acrobat 10은 다중 스레드 응용 프로그램 이 아닙니다 . Acrobat 11은 어떻습니까? 기본적으로 11은 다중 CPU 코어 (사용 가능한 경우)를 사용하여 OCR을 수행합니까? 그렇지 않은 경우 Acrobat 11이 여러 CPU 코어를 사용하여 OCR을 수행하도록하는 스크립팅과 같은 해결 방법이 있습니까? …
Microsoft Office Word 2010 (Beta)을 사용하여 스캔 및 문자 인식을 시작하려면 어떻게합니까? 스캐너의 문서를 2010 Word 문서로 직접 스캔하는 옵션을 찾지 못하는 것 같습니다. Office 2010 (베타)의 설치 설정을 확인했으며 OCR 요소가 설치되었습니다.
PDF를 OCR에 Tesseract를 사용하여 실험 해 왔으며 특히 Adobe Acrobat과 같은 도구가 제대로 인식 할 수없는 독일어 Fraktur 텍스트 (구식 고딕 양식 인쇄)를 사용하는 경우에 대부분 성공했습니다. 문제는 Tesseract의 출력 파일이 다소 커서 OCR 후 압축하고 싶습니다. 그러나 Ghostscript를 사용하여 파일을 압축하면 포함 된 OCR 텍스트가 엉망이됩니다. 마찬가지로 ImageMagick을 사용하면 …
Ubuntu 16.04 시스템에서 300 dpi PDF 파일로 여러 페이지를 스캔했습니다. 다음 명령을 실행할 때 : pdfocr -t -l swe -i *.pdf -o newfile.pdf 완벽하게 OCR 판독 파일이됩니다. 모든 단일 단어는 글꼴의 크기와 모양에 관계없이 검색 할 수 있습니다. 그러나 프로세스의 다음 단계는이 PDF를 PDF / A-1b로 변환하는 것입니다. Ghostscript 9.18에서 …