큰 책을 디지털 형식으로 변환하기위한 실용적인 OCR 솔루션?

12

나는 지난 주말에 조부모님의 집으로 끝났습니다. 할머니는 가족 역사에 관한이 거대한 (~ 1400 페이지) 책을 꺼내서 1630 년 정도 거슬러 올라갑니다. 내가 거대 대단하다, 나는 모든 정보를 데이터베이스에 저장하고 웹에서 사용할 수 있다고 생각했다. 나는 모든 웹 프로그래밍과 정규 표현식을 다룰 수 있지만 모르는 것은 책에서 컴퓨터로 텍스트를 얻는 가장 좋은 방법입니다.

내가 한 작은 연구에서 일종의 OCR이 필요할 것입니다. 내 옵션은 다음과 같습니다.

카메라로 모든 페이지의 사진을 촬영 한 다음 OCR 소프트웨어로 사진을 처리
스캐너를 사용하여 각 페이지를 스캔 한 다음 OCR 소프트웨어로 처리
이런 종류의 핸드 헬드 장치를 사용 하십시오 .

누구 든지이 문제를 해결하는 가장 좋은 방법에 대한 아이디어가 있습니까? 내가 아는 한, 그것을 대체 할 수 없기 때문에 나는 책을 파괴하고 싶지 않습니다. 아마 큰 책을 스캔하려고하는 유일한 시간 일 것이므로 어떤 종류의 기기에도 250 달러 이상을 쓰고 싶지 않다고 생각합니다. 나는 여기에 수동 노력을 신경 쓰지 않지만 (이것은 아마도 몇 달이 걸릴 것이라는 것을 알고 있습니다), 가능한 가장 효율적인 방법을 찾고 싶습니다.

책에 대한 참고 사항 : 그것은 단지 20 세 정도 였으므로 아주 좋은 모양입니다. 단색이며 페이지가 노란색으로 시작되지 않았습니다. 그래도 너무 커서 텍스트가 바인딩에 가까워지면 그림자가 걱정됩니다.

ocr

1

참고로,이 책이 20 년 밖에되지 않아 정보가 1600 년대로 돌아 가면 원본 자료는 어디에 있습니까? 캡처하는 것도 좋을 것입니다!

— Craig

그래, 너무 시원 할 것이다. 원본 저자를 추적 할 수 있는지 살펴 보겠습니다.

8

나는 꽤 오랫동안 Lifehacker 에서이 문제를 발견 했으며 그 이후로 내 최고의 DIY 프로젝트 중 하나였습니다.

여기에 이미지 설명을 입력하십시오

iPhone을 카메라 또는 이미징으로 교체하면 소프트웨어를 사용하여 OCR에 사용할 수있는 멋진 고해상도 JPEG를 얻을 수 있습니다. MS Office ...;)

싼. 유효한. DIY. 당신은 이런 생각을 이길 수 없습니다.

편집 : 의견은 그림자, 페이지 말림 등에 대한 몇 가지 요점을 제기했습니다. 문자 그대로 사진이 복사 된 라이브러리 텍스트를 가진 사람에게는 매우 쉽게 해결됩니다.

책을 비추기 위해 여러 광원을 추가하고 그림자를 제거하십시오.

책을 90 도로 기울여 페이지가 가운데로 향하지 않도록합니다. 또한 바인딩을 유지합니다.

예를 들어서 직접 설정할 수 있는지 살펴 보겠습니다.

편집 2 : 책을 들고 있어야하는 방법의 샘플을 업로드하고 왼쪽에서 광원을 확인하십시오.

여기에 이미지 설명을 입력하십시오

— 칼리 반
소스

그거 참 멋지다! 내가 그것을 할 수 있기를 바랍니다 :)

— alex alex

그러나이를 위해서는 실제 카메라와 좋은 품질이 필요합니다. 그래서 싸지 않습니다.

— Gnoupi

매우 흥미로운. 페이지 사이에 그림자가있을 수 있다는 점을 고려하여 책에서 어떻게 작동하는지 궁금합니다.

페이지가 구부러 지거나 그림자가 있으면 OCR 소프트웨어가 문자를 인식하는 데 문제가 있습니다.

— alex

책을 비추기 위해 여러 광원을 추가하고 그림자를 제거하십시오. 책을 90도 기울여서 페이지가 가운데의 바인딩쪽으로 말리지 않도록합니다. 우리는 대학에서 항상 도서관 텍스트 사진을 찍는 것이 상식입니다.

— caliban

3

내가 아는 것에서 ABBYY 는 최고의 OCR 소프트웨어를 만들지 만 무료는 아닙니다. 시험판 ABBYY FineReader를 사용해보십시오 . 아마 도움이 될 것입니다.

— 알렉스
소스

1

어떻게 든 이미지를 캡처해야합니다. 이를 위해 다양한 서비스가 있습니다. OCR이 아직 완벽하지 않기 때문에 텍스트 내용에 익숙한 사람이 교정해야합니다. 특히 손으로 쓴 것이 있습니다.

다른 사람들은 여기에서 귀하의 질문을 논의하고 있습니다 : http://ask.metafilter.com/92506/scan-my-books

일부 기업은 당신을 위해이 작업을 수행합니다 http://www.scandexsystems.com/BookScanning2.html http://www.kirtas.com/index.php?option=com_content&view=article&id=13&Itemid=48 에 http : // WWW. ristech.ca/product.html

일부 무료 소프트웨어 : http://download.cnet.com/Image-To-PDF-OCR-Converter-PDF-E-Book-Maker/3000-6675_4-10392924.html

— NickSentowski
소스

1

이와 같이 귀하와 귀하의 가족 프로젝트에 크고 중요한 경우, DIY Book Scanner가 갈 수 있습니다. 일부 디자인은 스포츠 페이지 터너조차도 http://www.diybookscanner.org/ 이것은 기본적으로 OCR을 지원하지 않습니다. 하지만 한 시간에 600 페이지를 쏘지 만 http://hackaday.com/2011/07/18/diy-book-scanner-processes-600-pageshour/ 이후에 OCR을 통해 실행할 수 있습니다 .

— Xaq Fixx
소스

0

근처의 대학에 전체 책 스캐너 가 있는지 확인한 다음 학생에게 책 을 넘겨달라고 간청하십시오.

— 크리스 나바
소스

0

Chris가 언급 한 것처럼 책 스캔을 위해 조작 된 평판 스캐너 또는 전체 책 스캐너를 권장합니다.

가능하면 문서 관리 시스템과 관련하여 업계 표준 인 TIFF 형식으로 이미지를 컴파일하십시오.

OCR을 수행 하기 위해 Google이 도서 프로젝트에 대해 설명하는 프레임 워크이므로 tesseract OCR 을 권장 합니다.

— 그렉 부 엘러
소스

0

프로세스를 자동화하려는 유혹이 들리지만,이 특정 책은 개인적인 문제이기 때문에 시간과 노력이 더 많이 필요할 수 있습니다. OCR은 대량 작업을 수행하지만 페이지별로 교정하고 원본과 비교해야합니다. 저자의 실수는 거래의 일부이므로이를 수정하지 마십시오 (기분이 너무 심하면 각주를 작성하십시오). 시간을내어 압력을 가하지 말고 책 스캔은 당나귀 일이지만 철저한 지불이 이루어지며 가족 만성의 훌륭한 디지털 사본이 생깁니다. 당신의 노력으로 행운을 빕니다 :)

실제로, 그것은 정말 좋은 지적입니다. 책의 원본 콘텐츠를 디지털 방식으로 제공하는 것을 고려하지는 않았지만 가능한 한 .pdf 버전을 만들 수도 있습니다.

왜 PDF인가? HTML을 생각하십시오. 대량의 데이터로 끝나더라도 원본 스캔을 유지할 수도 있습니다.

내 생각은 데이터베이스에 모든 출생 / 계보 정보를 갖는 것이므로 탐색 / 검색 / 업데이트를 쉽게하는 웹 프런트 엔드를 만들 수 있습니다. 해당 버전에서 오타가 발생할 계획입니다. 또한, 거기에없는 사촌이있어서 추가하는 것이 좋습니다. 원래 페이지 번호가 그대로 유지되고 원래 책과 비슷한 모양을 갖는 것이 좋기 때문에 pdf를 생각하고있었습니다. 그 버전은 혼자두고 책에서 모든 오타를 유지합니다.

0

직장에서 우리 는 약 $ 250 의 Plustek Optibook 3600 책 스캐너를 사용합니다 . 기본적으로 표준 평판 스캐너이지만 유리판이 스캐너 가장자리로 바로 들어가서 책 페이지를 평판에 놓을 수 있습니다. 이것은 척추 그림자를 제거하고 책을 손상시키지 않습니다.

여기에 이미지 설명을 입력하십시오

— 펠름
소스

정말 두꺼운 책으로 사용해 본 적이 있습니까? 두께는 3 인치 정도입니다.

평평한 페이지로 90도 열 수 있다면 괜찮습니다. 테이블 가장자리를 시험해보십시오.

— 펠름