Tesseract와 OpenCV 중에서 어떻게 선택합니까? [닫은]


94

나는 최근에 TesseractOpenCV를 만났습니다 . Tesseract는 본격적인 OCR 엔진이며 OpenCV를 프레임 워크로 사용하여 OCR 애플리케이션 / 서비스를 만들 수 있습니다.

내 이미지 중 일부에 Tesseract를 사용해 보았는데 그 정확성이 괜찮은 것 같습니다. 나중에 OpenCV를 사용하여 Python을 사용하여 OCR을 수행하는 방법에 대한 매우 간단한 자습서 를 보았습니다. 몇 분 만에 시스템 훈련을 마쳤고 정확도가 좋았습니다. 하지만 물론이 접근 방식을 취한다는 것은 대규모 교육 세트를 사용하여 시스템을 광범위하게 교육해야한다는 것을 의미합니다.

내 구체적인 질문은 다음과 같습니다.

  • Tesseract와 OpenCV를 사용하여 맞춤형 OCR 앱을 구축하는 방법은 무엇입니까?
  • 다양한 언어로 Tesseract에 사용할 수있는 교육 데이터 세트가 있습니다. OpenCV에는 OCR을 달성하기 위해 처음부터 시작할 필요가 없도록 비슷한 것이 있습니까?
  • Wanna-be 상업용 응용 프로그램에 더 적합한 것은 무엇입니까?

어떤 제안?


8
아래 답변은 정말 훌륭하지만 OCR과 함께 일한 사람으로서 Tesseract의 인식 품질이 상용 앱 사용자의 기대치보다 낮다는 것을 말할 수 있습니다. Tesseract는 훌륭하지만 OCR은 어렵습니다. 온라인 교육이나 즉각적인 개선과 같은 것은 흠 ... 여전히 연구입니다. 최근 TS의 큰 후원자 인 Google은 자체 엔진 인 OCROpus를 구축하기로 결정했습니다. 오픈 소스를 약속했지만 핵심 인식 엔진은 아직 사용할 수 없습니다. 프레임 워크 만 게시했을뿐입니다. 이는 tesseract의 API입니다.
Sam

3
@vasile : 매우 유익합니다. 나는 OCROpus를 몰랐습니다. 감사합니다. 내 최종 목표가 명함 OCR (또는 내가 링크 한 것과 같은 주유소 영수증을 읽는 것 : upload.wikimedia.org/wikipedia/en/3/34/…)을 작성하는 것이라면 대안에 대한 제안이 있습니까? )? 나는 수많은 모바일 앱이 이것을 달성하기 위해 무엇을 사용하는지 궁금하기 때문에 묻는 것입니다. 나는 서버 측에서 OCR을 수행하는 데 신경 쓰지 않습니다. 이 멋진 데모를보고 OpenCV를 사용하고 싶었습니다. youtube.com/watch?v=OkcOfS1lTxs
Legend

6
많은 상용 OCR 엔진이 있으며 Google 만 OCR accuracy tests있으면 차트를 찾을 수 있습니다. 그리고 모바일 앱에 대해 말하면 대부분은 tesseract를 사용합니다. 그러나 이들 중 일부를 다운로드해야하는 경우 결과가 약속과 약간 다르다는 것을 알 수 있습니다. 그들은 일반적으로 신중하게 통제 된 환경에서 비디오 데모를 만들어 YouTube에 게시하지만, 야생에서 페이지 / 레시피 / 카드 / 무엇이든 스캔하면 재미있는 결과를 얻을 수 있습니다.
Sam

1
@vasile : 감사합니다. 오늘 밤 나를 바쁘게 할 것. 시간을 내 주셔서 감사합니다.
Legend

답변:


77
  • Tesseract는 OCR 엔진입니다. 특히 이미지에서 텍스트를 읽고, 기본 문서 분할을 수행하고, 특정 이미지 입력 ​​(단어, 줄, 단락, 페이지, 제한된 사전 등)에서 작동하기 위해 Google에서 사용, 작업 및 자금을 지원합니다.

  • 반면 OpenCV는 일부 기능 추출 및 데이터 분류를 수행 할 수있는 기능을 포함하는 컴퓨터 비전 라이브러리입니다. 기본적인 OCR을 수행하는 간단한 문자 분할기와 분류기를 만들 수는 있지만 매우 좋은 OCR 엔진은 아닙니다 (전에 Python에서 처음부터 만들었습니다. 학습 데이터에서 벗어나는 입력에 대해서는 정말 부정확합니다).

OCR이 얼마나 어려운지에 대한 기본적인 이해를 얻고 싶다면 OpenCV를 사용해보십시오. Tesseract는 실제 OCR 용입니다.


3
입력 이미지에 따라 다릅니다. Tesseract는 글자가 선명하고 수평선에 간격이 있고 연결되지 않고 완벽하게 흑백 일 때 가장 잘 작동합니다. 나는 DIY 책 스캔 / 보존 커뮤니티에서 약 1 년 동안 작업을했고 자유 시간에 소프트웨어 작업을하여 프로세스를 쉽게했습니다. 최고의 사후 처리 (광고 없음) 거기 소프트웨어의 어떤 텍스트와 이미지는 스캔 재단사 . 몇 가지 CLI 옵션이 있지만 작동 방식을 확인하는 데 시간이 걸리면 꽤 놀랍습니다.
Blender

2
저는 Scan Tailor의 소스 코드를 약간 작업했고 내부적으로 OpenCV를 사용하지 않지만 생성 된 많은 알고리즘은 OpenCV의 기능으로 정말 쉽게 다시 작성할 수 있습니다. 이미지가 뒤 틀리지 않고 저하되지 않은 경우, Tesseract에 이미지를 공급하기 전에 적응 형 이진화 및 간단한 반점 제거를 구현하면됩니다.
Blender

1
귀하의 질문과 관련하여 어제 무작위 입력 이미지를 테스트했습니다. 나는 주유소에서 영수증을 시도했습니다 : upload.wikimedia.org/wikipedia/en/3/34/… 그것은 (총 $ 20.00) 0로 인식했습니다 8. 나는 숫자를 해독하기가 어려웠다는 것을 인정하지만 Tesseract를 이러한 상황에 적응시키기 위해 무엇을 할 수 있는지, 아니면 활성 사용자 기반이 있다면 학습 요소를 도입 할 수 있을지 확신하지 못했습니다.
Legend

5
Tesseract는 특정 글꼴 세트를 읽도록 훈련되었습니다. 그 뭉툭한 글자는 그들 중 하나가 아닙니다. Google에 동물 희생을 제시하고 Tesseract를 직접 훈련시켜야합니다. code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3
Blender

1
또한 이러한 문자를 읽기위한 사용자 지정 OCR 엔진을 작성하기 전에 정확할 것이라고 기대하지 마십시오. 저는 Wheel of Fortune 자동화를 위해 하나를 썼고 샘플 이미지 (온라인 게임의 스크린 샷)는 JPEG였습니다. JPEG 압축의 아티팩트는 모든 단일 문자에 대해 약 10-20 개의 샘플 이미지를 제공하지 않는 한 이미지 분류기를 망칠 정도로 충분했습니다.
Blender

65

나는 당신이 언급 한 숫자 인식 튜토리얼의 저자이며 , 이것이 tesseract를 대체 할 방법이 아니라고 말할 것입니다.

Tesseract는 정말 좋은 OCR 엔진이며 최고의 OpenSource OCR 엔진 일 수 있습니다.

언급하신 튜토리얼은 OCR의 가장 간단한 작업을 이해하기위한 시도 일뿐입니다.

따라서 OCR 앱을 찾고 있다면 OpenCV를 사용하여 이미지를 전처리 한 다음 tesseract 엔진을 적용하는 것이 좋습니다.


1
+1 감사합니다. 우선 튜토리얼 주셔서 감사합니다. :) 정말 흥미로 웠습니다. Tesseract와 함께 OpenCV를 활용하는 방법에 대한 참조 / 튜토리얼을 알고 있습니까? 인터페이싱이 아니라 Tesseract의 정확도를 높이기 위해 수행해야하는 이미지 변환 또는 전처리 유형에 대해 이야기하지 않습니까?
Legend

2
Tesseract는 다른 것들에 비해 좋은 OCR 엔진이지만 여전히 상당히 부정확하지만 올바른 텍스트를 인식하는 데 약 40 %의 성공률을 보였습니다. 바라건대, 몇 년 안에 더 나아질 것입니다.
GangstaGraham

4
@GangstaGraham 테서 랙트를 훈련하기 만하면 몇 시간 또는 몇 년이 아닌 며칠 만에 더 나은 결과를 얻을 수 있습니다. opensource.newmediaist.com/tesseract-training.html
valentt 2013

1
실시간 텍스트 추출을 위해 PyTesseract를 사용합니다. Linux PC에서는 잘 작동하지만 Raspberry Pi 환경에서는 매우 느립니다. 경량 버전을 설치하는 방법은 없나요? 예를 들어, 영어 알파벳의 숫자와 대문자 만 처리합니까?
Yuriy Chernyshov

9

두 가지는 상호 보완적일 수 있습니다. OpenCV에 대한 논문을 읽는 경우 : https://github.com/tesseract-ocr/docs/blob/master/tesseracticdar2007.pdf

"HP가 제품에 사용 된 페이지 레이아웃 분석 기술을 독립적으로 개발했기 때문에 (따라서 오픈 소스 용으로 출시되지 않았기 때문에) Tesseract는 자체 페이지 레이아웃 분석이 필요하지 않았습니다. 따라서 Tesseract는 입력이 다음과 같은 바이너리 이미지라고 가정합니다. 정의 된 선택적 다각형 텍스트 영역. "

이러한 유형의 작업은 OpenCV에서 수행 할 수 있으며 결과 이미지는 Tesseract에 전달됩니다. Git 리포지토리에서 이러한 유형의 코드 샘플을 찾을 수 있습니다. https://github.com/Itseez/opencv_contrib/tree/master/modules/text/samples 샘플은 Tesseract API를 사용하여 이미지를 텍스트로 변환합니다.


3

OpenCV는 일반적으로 이미지를 분석하고 처리하는 데 사용되는 CV 용 라이브러리입니다 . Tesseract는 이미지에서 텍스트를 추출하는 전용 CV의 특수 하위 집합 인 OCR 용 라이브러리입니다 .

에서 OpenCV.org

..... 얼굴 감지 및 인식, 물체 식별, 비디오에서 인간의 행동 분류, 카메라 움직임 추적, 움직이는 물체 추적, 물체의 3D 모델 추출, 스테레오 카메라에서 3D 포인트 클라우드 생성, 이미지를 결합하여 높은 이미지 생성 전체 장면의 해상도 이미지, 이미지 데이터베이스에서 유사한 이미지 찾기, 플래시를 사용하여 촬영 한 이미지에서 적목 현상 제거, 눈의 움직임 추적, 풍경 인식 및 마커를 설정하여 증강 현실 오버레이 등

에서 정팔 포체 Github에서 :

..... 직접 사용하거나 (프로그래머의 경우) API를 사용하여 이미지에서 타이핑, 손글씨 또는 인쇄 된 텍스트를 추출 할 수 있습니다. 다양한 언어를 지원합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.