이미지에서 텍스트를 추출하려면 어떻게합니까?

나는 스캔 한 파일에 대해 이야기하는 것이 아니라 수업 시간에 칠판을 고화질로 찍을 때와 같은 정원의 다양한 이미지에 대해 이야기하고 있습니다. 또는 레시피 북에서 페이지를 촬영하고 텍스트 형식의 레시피를 원할 때.

이를위한 무료 및 공개 소프트웨어가 있습니까?

나는 tesseract를 시도했고 결과는 끔찍했습니다.

software-recommendation images ocr

— 끈다 코프 스키
소스

벵골어 와 영어를 동시에 지원하는 OCR이 필요합니다 .

— alhelal

답변:

이미지에서 텍스트를 추출하는 작업을 호출 OCR하고 Ubuntu에는 OCR 전용 Wiki 페이지가 있습니다 . 해당 페이지에서 :

사용 가능한 OCR 도구

Ubuntu Universe 리포지토리에는 다음과 같은 OCR 도구가 포함되어 있습니다.

gocr- 명령 행 OCR
fuzzyocr- 이미지 첨부 파일을 확인하는 spamassassin 플러그인
libhocr0- 히브리어 OCR
ocrad- 광학 문자 인식 프로그램
ocrfeeder- 문서 레이아웃 분석 및 광학 문자 인식 시스템
문어 -문서 분석 및 OCR 시스템
tesseract-ocr

Ubuntu 다중 저장소에는 다음이 포함됩니다.

설형 문자 -다국어 OCR 시스템

일부 패키지는 오래되었지만 비공식적 인 새로운 패키지는 Alex_P PPA (PPA 추가 코드 : ppa : alex-p / notesalexp) 에서 찾을 수 있습니다 . PPA를 사용한 적이 없다면 PPA 에서 소프트웨어를 추가하는 방법을 확인하십시오 .

편집 : 의견에 표시된 바와 같이 클라라 OCR도 존재하지만 하디에 놀랐고 그들의 웹 사이트는 2009 년 마지막으로 업데이트되었습니다.

— 린츠 윈드
소스

내가 설명한 예에 대한 경험이 있습니까? 나는 그것들을위한 정기적 인 ocr 툴에 약간 회의적이되었다. 목록의 숫자 7은 내가 시도한 것이고 분명히 끔찍했습니다.

— Strapakowsky

내가 기억한다면, 나는 끔찍한 결과와 함께 gocr을 시도했다. 그 중 하나를 성공으로 시도한 경우 어떤 구문을 사용 했습니까? 감사.

— Strapakowsky

아무것도! 나는 OCR에 귀찮게하지 않았다 : D Freshmeat 검색은 클라라 OCR과 tesseract-ocr을 보여줍니다;) ( freshmeat.net/search/… )

— Rinzwind

OCR을 성공적으로 사용하려면 프로세스에 대한 지식과 스캔 할 특정 이미지에 맞는 신중한 설정이 필요하다고 말하면 잘못입니까? 따라서 내가 옳다면 소프트웨어가 아닌 사용자 때문일 수 있습니다.

— NN

OCR이미지가 생성되는 방식을 알고 사용하는 소프트웨어 사용에 정통한 경우에 가장 효과적입니다 (후자는 내가 이미지를 사용하지 않은 이유입니다).

— Rinzwind

tesseract-ocr다른 모든 것에 비해 위대한 것입니다. 설치하려면 command를 실행하십시오 sudo apt-get install tesseract-ocr.

사용법은 tesseract filename.jpg output.txt입니다.

위의 명령은을 생성 output.txt합니다.

적절한 언어를 선택하는 것이 좋습니다. 이 경우 tesseract-ocr-LANG패키지 를 설치해야 합니다. 여기서 LANG3 자리 ISO 639-2 언어 코드가 있습니다. 현재 18.04 repo에 123 개 언어가 있습니다. 그런 다음 예를 들어 사용하십시오 .

tesseract mySpanishText.jpg output -l spa

— 수 디르 벨라 갈리
소스

이봐, 이것은 작동하지만 정확하지 않거나 오히려 80-85 % 정확하다고 말하고 싶습니다. 이 이미지의 예와 같이 pbs.twimg.com/media/DJs6_pcXkAA2VrN.jpg 는 $ 기호와 대부분의 괄호를 엉망으로 만들었 습니다. 정사각형, 둥근, 곱슬, 모든 대괄호는 문제가되며 제대로 추출되지 않습니다. 당신은 어떤 수정을 알고 있습니까?

— 밀라노 체다