«tesseract-ocr» 태그된 질문

0
OCR의 내장 텍스트를 유지하면서 Tesseract로 인코딩 된 PDF를 압축하는 방법은 무엇입니까?
PDF를 OCR에 Tesseract를 사용하여 실험 해 왔으며 특히 Adobe Acrobat과 같은 도구가 제대로 인식 할 수없는 독일어 Fraktur 텍스트 (구식 고딕 양식 인쇄)를 사용하는 경우에 대부분 성공했습니다. 문제는 Tesseract의 출력 파일이 다소 커서 OCR 후 압축하고 싶습니다. 그러나 Ghostscript를 사용하여 파일을 압축하면 포함 된 OCR 텍스트가 엉망이됩니다. 마찬가지로 ImageMagick을 사용하면 …

0
재미있는 OCR 상황
Ubuntu 16.04 시스템에서 300 dpi PDF 파일로 여러 페이지를 스캔했습니다. 다음 명령을 실행할 때 : pdfocr -t -l swe -i *.pdf -o newfile.pdf 완벽하게 OCR 판독 파일이됩니다. 모든 단일 단어는 글꼴의 크기와 모양에 관계없이 검색 할 수 있습니다. 그러나 프로세스의 다음 단계는이 PDF를 PDF / A-1b로 변환하는 것입니다. Ghostscript 9.18에서 …


0
사진에서 텍스트 언어를 자동 감지하고 번역하는 방법 [닫기]
사진 https://obserbot.com/ 에서 텍스트를 감지하기 위해 OCR 앱을 통합 했지만 사진에서 정확한 텍스트 만 가져 와서 다국어로 변환하지 않았습니다. 앱이 텍스트 언어를 감지하고 위치에 따라 독자의 언어로 자동 번역하거나 사진에서 텍스트를 추출 한 후 번역 할 수있는 옵션을 제공하기를 원합니다.

1
OCR이이 이미지를 인식하게하는 방법
원본 이미지 나는이 이미지의 숫자를 인식하는 것이 실제로 쉽지만, tesseract와 많은 온라인 OCR로 인식 할 수는 없다고 생각합니다. 그런 다음 이렇게 처리합니다. 공정 이미지 불행히도 그것은 여전히 ​​tesseract에 의해 인식 될 수 없습니다. 내 tesseract 매개 변수 : tesseract input output digits -psm 7 단 하나의 점만 반환합니다. .

1
어떻게 OCR 도구 pdfsandwich와 왜곡 된 결과를 피하기 위해?
일반적으로 OCR 도구를 적용하기 전에 스캔 한 페이지를 기울여야합니다. 여기에서 필자의 입력은 똑 바른 스캔 페이지이며 OCR 출력은 시계 방향 또는 반 시계 방향으로 왜곡되는 경우가 있습니다. 260 페이지의 영어 책을 사용하는 경우 14 페이지가 발생합니다. 예: input.pdf : output.pdf 명령: convert -density 300 -quality 100 input.pdf -level 0%,100%,4.0 -black-threshold …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.