이미지에서 텍스트를 추출하려면 어떻게합니까?


25

이미지에서 텍스트를 추출하려면 어떻게합니까?

나는 스캔 한 파일에 대해 이야기하는 것이 아니라 수업 시간에 칠판을 고화질로 찍을 때와 같은 정원의 다양한 이미지에 대해 이야기하고 있습니다. 또는 레시피 북에서 페이지를 촬영하고 텍스트 형식의 레시피를 원할 때.

이를위한 무료 및 공개 소프트웨어가 있습니까?

나는 tesseract를 시도했고 결과는 끔찍했습니다.


벵골어 와 영어를 동시에 지원하는 OCR이 필요합니다 .
alhelal

답변:


26

이미지에서 텍스트를 추출하는 작업을 호출 OCR하고 Ubuntu에는 OCR 전용 Wiki 페이지가 있습니다 . 해당 페이지에서 :

사용 가능한 OCR 도구

Ubuntu Universe 리포지토리에는 다음과 같은 OCR 도구가 포함되어 있습니다.

  1. gocr- 명령 행 OCR
  2. fuzzyocr- 이미지 첨부 파일을 확인하는 spamassassin 플러그인
  3. libhocr0- 히브리어 OCR
  4. ocrad- 광학 문자 인식 프로그램
  5. ocrfeeder- 문서 레이아웃 분석 및 광학 문자 인식 시스템
  6. 문어 -문서 분석 및 OCR 시스템
  7. tesseract-ocr

Ubuntu 다중 저장소에는 다음이 포함됩니다.

  1. 설형 문자 -다국어 OCR 시스템

일부 패키지는 오래되었지만 비공식적 인 새로운 패키지는 Alex_P PPA (PPA 추가 코드 : ppa : alex-p / notesalexp) 에서 찾을 수 있습니다 . PPA를 사용한 적이 없다면 PPA 에서 소프트웨어를 추가하는 방법을 확인하십시오 .

편집 : 의견에 표시된 바와 같이 클라라 OCR도 존재하지만 하디에 놀랐고 그들의 웹 사이트는 2009 년 마지막으로 업데이트되었습니다.


내가 설명한 예에 대한 경험이 있습니까? 나는 그것들을위한 정기적 인 ocr 툴에 약간 회의적이되었다. 목록의 숫자 7은 내가 시도한 것이고 분명히 끔찍했습니다.
Strapakowsky

내가 기억한다면, 나는 끔찍한 결과와 함께 gocr을 시도했다. 그 중 하나를 성공으로 시도한 경우 어떤 구문을 사용 했습니까? 감사.
Strapakowsky

아무것도! 나는 OCR에 귀찮게하지 않았다 : D Freshmeat 검색은 클라라 OCR과 tesseract-ocr을 보여줍니다;) ( freshmeat.net/search/… )
Rinzwind

OCR을 성공적으로 사용하려면 프로세스에 대한 지식과 스캔 할 특정 이미지에 맞는 신중한 설정이 필요하다고 말하면 잘못입니까? 따라서 내가 옳다면 소프트웨어가 아닌 사용자 때문일 수 있습니다.
NN

OCR이미지가 생성되는 방식을 알고 사용하는 소프트웨어 사용에 정통한 경우에 가장 효과적입니다 (후자는 내가 이미지를 사용하지 않은 이유입니다).
Rinzwind

18

tesseract-ocr다른 모든 것에 비해 위대한 것입니다. 설치하려면 command를 실행하십시오 sudo apt-get install tesseract-ocr.

사용법은 tesseract filename.jpg output.txt입니다.

위의 명령은을 생성 output.txt합니다.

적절한 언어를 선택하는 것이 좋습니다. 이 경우 tesseract-ocr-LANG패키지 를 설치해야 합니다. 여기서 LANG3 자리 ISO 639-2 언어 코드가 있습니다. 현재 18.04 repo에 123 개 언어가 있습니다. 그런 다음 예를 들어 사용하십시오 .

tesseract mySpanishText.jpg output -l spa

이봐, 이것은 작동하지만 정확하지 않거나 오히려 80-85 % 정확하다고 말하고 싶습니다. 이 이미지의 예와 같이 pbs.twimg.com/media/DJs6_pcXkAA2VrN.jpg 는 $ 기호와 대부분의 괄호를 엉망으로 만들었 습니다. 정사각형, 둥근, 곱슬, 모든 대괄호는 문제가되며 제대로 추출되지 않습니다. 당신은 어떤 수정을 알고 있습니까?
밀라노 체다
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.