답변:
이미지에서 텍스트를 추출하는 작업을 호출 OCR
하고 Ubuntu에는 OCR 전용 Wiki 페이지가 있습니다 . 해당 페이지에서 :
사용 가능한 OCR 도구
Ubuntu Universe 리포지토리에는 다음과 같은 OCR 도구가 포함되어 있습니다.
Ubuntu 다중 저장소에는 다음이 포함됩니다.
일부 패키지는 오래되었지만 비공식적 인 새로운 패키지는 Alex_P PPA (PPA 추가 코드 : ppa : alex-p / notesalexp) 에서 찾을 수 있습니다 . PPA를 사용한 적이 없다면 PPA 에서 소프트웨어를 추가하는 방법을 확인하십시오 .
편집 : 의견에 표시된 바와 같이 클라라 OCR도 존재하지만 하디에 놀랐고 그들의 웹 사이트는 2009 년 마지막으로 업데이트되었습니다.
OCR
이미지가 생성되는 방식을 알고 사용하는 소프트웨어 사용에 정통한 경우에 가장 효과적입니다 (후자는 내가 이미지를 사용하지 않은 이유입니다).
tesseract-ocr
다른 모든 것에 비해 위대한 것입니다. 설치하려면 command를 실행하십시오 sudo apt-get install tesseract-ocr
.
사용법은 tesseract filename.jpg output.txt
입니다.
위의 명령은을 생성 output.txt
합니다.
적절한 언어를 선택하는 것이 좋습니다. 이 경우 tesseract-ocr-LANG
패키지 를 설치해야 합니다. 여기서 LANG
3 자리 ISO 639-2 언어 코드가 있습니다. 현재 18.04 repo에 123 개 언어가 있습니다. 그런 다음 예를 들어 사용하십시오 .
tesseract mySpanishText.jpg output -l spa