테서 랙트 성능을 향상시키는 방법?


2

모든 계정에서 tesseract는 훌륭합니다. 그러나 내 결과는 어둡습니다. png로만 가지고있는 텍스트 (책과는 반대로 디지털)를 변환해야합니다. 예를 들어 :

   2 3 academics 1 1711
   2 3 Achlmbobelmann 211 191—2
   1 3 Aoqusmono|Food 1 171
   n 5 AFD.seeAgem:eFIan§asedeDével 1 (muessmm)
   3 4 allluence 211 I849
   81 5 Afnca 33:21 9.lZ3l.$50Z55&9l.93-4.9898100.II8r2D.IZ§£

이것은 흰색 필드에 대한 진한 파란색 텍스트입니다. 원본 이미지는 여기에서 찾을 수 있습니다 . 어떻게 더 잘할 수 있습니까?


어떻게 운영하고 있습니까? 사용한 실제 명령 줄을 표시하십시오.
terdon

나는 지금 그 컴퓨터에서 떨어져 있기 때문에 확실하지 않지만, 내가 방금 쓴 것 같습니다tesseract <inputfile> <outputfile>
katriel

답변:


1

https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3 교육을 받으면 Tesseract의 성능이 훨씬 향상됩니다.

구문 분석을 위해 5 천만 개가 넘는 PDF에 대한 연구에서 발견 한 내용은 다음과 같습니다.

(1) PNG 형식 파일에서 사용중인 글꼴을 확인하십시오. (2) PNG 이미지의 비트 맵이 아닌 TTF 형식의 글꼴로 Tesseract를 훈련시킵니다. (3)이 새로운 교육으로 tesseract를 실행하십시오.

위의 # 2를 자동화하고 있지만 글꼴을 식별하는 온라인 도구가 있습니다. 나는 제안 할 것이다 : http://www.whatfontis.com/

https://stackoverflow.com/questions/7292991/tesseract-confuses-two-numbers 도 도움이 될 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.