컴퓨터 사용자 tesseract-ocr

0

OCR의 내장 텍스트를 유지하면서 Tesseract로 인코딩 된 PDF를 압축하는 방법은 무엇입니까?

PDF를 OCR에 Tesseract를 사용하여 실험 해 왔으며 특히 Adobe Acrobat과 같은 도구가 제대로 인식 할 수없는 독일어 Fraktur 텍스트 (구식 고딕 양식 인쇄)를 사용하는 경우에 대부분 성공했습니다. 문제는 Tesseract의 출력 파일이 다소 커서 OCR 후 압축하고 싶습니다. 그러나 Ghostscript를 사용하여 파일을 압축하면 포함 된 OCR 텍스트가 엉망이됩니다. 마찬가지로 ImageMagick을 사용하면 …

3 pdf compression adobe-acrobat ocr tesseract-ocr

0

재미있는 OCR 상황

Ubuntu 16.04 시스템에서 300 dpi PDF 파일로 여러 페이지를 스캔했습니다. 다음 명령을 실행할 때 : pdfocr -t -l swe -i *.pdf -o newfile.pdf 완벽하게 OCR 판독 파일이됩니다. 모든 단일 단어는 글꼴의 크기와 모양에 관계없이 검색 할 수 있습니다. 그러나 프로세스의 다음 단계는이 PDF를 PDF / A-1b로 변환하는 것입니다. Ghostscript 9.18에서 …

2 pdf ocr ghostscript tesseract-ocr

1

JPEG에서 TIFF 로의 변환에 ffmpeg 사용

비디오와 함께 Tesseract OCR 을 사용하고 싶습니다 . ffmpeg를 사용하면 .jpeg비디오에서 일부 ( ) 이미지를 내보낼 수 있습니다 . ffmpeg를 사용하여 비디오에서 .jpeg유효한 이미지 로 변환 .tiff하거나 직접 .tiff이미지를 내보낼 수 있습니까?

2 ffmpeg jpeg tiff image-conversion tesseract-ocr

0

사진에서 텍스트 언어를 자동 감지하고 번역하는 방법 [닫기]

사진 https://obserbot.com/ 에서 텍스트를 감지하기 위해 OCR 앱을 통합 했지만 사진에서 정확한 텍스트 만 가져 와서 다국어로 변환하지 않았습니다. 앱이 텍스트 언어를 감지하고 위치에 따라 독자의 언어로 자동 번역하거나 사진에서 텍스트를 추출 한 후 번역 할 수있는 옵션을 제공하기를 원합니다.

1 ocr tesseract-ocr

1

OCR이이 이미지를 인식하게하는 방법

원본 이미지 나는이 이미지의 숫자를 인식하는 것이 실제로 쉽지만, tesseract와 많은 온라인 OCR로 인식 할 수는 없다고 생각합니다. 그런 다음 이렇게 처리합니다. 공정 이미지 불행히도 그것은 여전히 tesseract에 의해 인식 될 수 없습니다. 내 tesseract 매개 변수 : tesseract input output digits -psm 7 단 하나의 점만 반환합니다. .

1 ocr tesseract-ocr

1

어떻게 OCR 도구 pdfsandwich와 왜곡 된 결과를 피하기 위해?

일반적으로 OCR 도구를 적용하기 전에 스캔 한 페이지를 기울여야합니다. 여기에서 필자의 입력은 똑 바른 스캔 페이지이며 OCR 출력은 시계 방향 또는 반 시계 방향으로 왜곡되는 경우가 있습니다. 260 페이지의 영어 책을 사용하는 경우 14 페이지가 발생합니다. 예: input.pdf : output.pdf 명령: convert -density 300 -quality 100 input.pdf -level 0%,100%,4.0 -black-threshold …

pdf scanning ocr tesseract-ocr

«tesseract-ocr» 태그된 질문