실제 텍스트를 디지털 텍스트로


9

먼저이 질문에 접두사를 붙이겠습니다.이 질문에 어떤 StackExchange 사이트가 가장 적합한 지 잘 모르겠지만 LifeHacks가 작동 할 것이라고 생각했습니다 ...

1998 년에 우리 가족의 엄마 쪽은 큰 가족 상봉을했습니다 (제 할머니는 열 명의 자녀를 두 셨기 때문에 큰 모임이었습니다). 저의 먼 삼촌 중 한 명이이 재결합을 위해 가족 역사에 관한 일종의 책을 썼습니다. 그리고 엄마는 저에게 읽을 책을 주셨습니다. 나는 그것이 얼마나 큰지, 그리고 얼마나 많은 연구가 그 책에 들어 갔는지 믿을 수 없었다. 웹 사이트에서 책 전체를 구할 수있는 방법을 찾고 싶습니다. 그런 다음이 책을 가족 모두와 공유하고이 책은이 책보다 더 오래 보존 할 수 있습니다.

이 300 페이지 책 전체에 단어를 입력 할 필요가 없기 때문에 페이지를 스캔하여 디지털 텍스트로 가져올 수있는 방법이 있습니까? 분명히 사진을 찍고 웹 사이트를 사용하여 사진을 만들 수는 있지만 실제 텍스트로 사용하는 것이 더 유리하다고 생각합니다. 그러면 누군가가 가족 이름이나 그와 비슷한 것을 검색 할 때 Google 검색에 더 잘 표시 될 수 있기 때문입니다. 또한 가족 중 누군가가 가족에 대한 연구 프로젝트를 수행 한 경우 일부 텍스트를 복사하여 더 쉽게 참조 할 수 있습니다.

그렇다면이 오래된 가족 책을 디지털 텍스트로 가져올 수있는 가장 좋은 방법을 아는 사람이 있습니까?

책 첫 페이지

두께를 나타내는 책

답변:


14

최근에 사진 앱 및 카메라 사진 검토 scrwwn에 추가 된 안드로이드 폰과 " Google Lens "기능을 사용하십시오.

Google Lens 를 통한 OCR 은 내가 사용한 OCR 소프트웨어보다 훨씬 훌륭하고 정확합니다.

아래는 저렴한 (100 USD) Nokia 3, 내 사랑하는 Nexus 4가 유령을 포기한 이래로 기뻐했던 최고의 휴대 전화를 사용하여 절차를 설명하는 스크린 샷 입니다.

1976 년에 인쇄 된 그리스어 윤리 서적의 OCR 스캔 샘플을 자세히 스캔하여 스캔 할 때 찢어지지 않고 비슷한 문자 밀도와 서체로 보입니다.

나는 소소 폰 카메라의 모든 자동 설정을 사용하여 이상적인 조명 조건 에서이 원본 사진을 찍었습니다. 결과를 향상시키기 위해 pecial 사진 기술이나 비품이 사용되지 않았습니다 . 도서 페이지 . (텍스트에 초점을 맞추고 OCR이 흐릿한 초점이 맞지 않는 텍스트를 해독하지 않음)

여기에 이미지 설명을 입력하십시오

Google 사진 앱을 사용하여 사진을 찍은 후 미리보기를 통해 또는 사진 자체에서 사용할 수있는 Google 렌즈 아이콘을 클릭하십시오.

여기에 이미지 설명을 입력하십시오

여기에 -Skynet-의 ^M^M^M^M^M^MI 평균, 구글 렌즈 하고 마법 스캐닝 (점은 조금 오싹하지만 그들은 당신이 알려 뭔가를해야했다 , 구글 이미지 AI는 것 같아요, 그 일을하고있다)

여기에 이미지 설명을 입력하십시오

이미지가 스캔되면 사진에서 Google Lens가 찾은 텍스트 영역이 명확하게 표시되고 텍스트가 이미 화면의 아래쪽 절반으로 추출 된 것을 볼 수 있습니다. 다른 영역이 아닌 일부 영역 만 원하는 경우 선택 영역을 터치하여 활성화 / 비활성화하십시오.

추출 된 텍스트를 터치하면 클립 보드에 복사되어 붙여 넣기 를 할 수 있습니다.

여기에 이미지 설명을 입력하십시오

그런 다음 Google 문서 에 텍스트를 붙여 넣기 만하면 됩니다. 여기서 할 수있는 작업 :-바로 또는 PC에서 실수를 수정하고-문서를 마음의 내용과 공유하고, 편집 한 내용을 실시간으로 업데이트하여 웹 페이지로 게시하거나-일반 텍스트로 내보내기, 단어 문서 ,-열린 사무실 문서,- 리플 로우 텍스트가있는 킨들 호환 epub 전자 서적 또는-좋은 ol 'Non-DRMd PDF

아마도 이것이 가장 광범위한 출력 선택을 가진 아마도 가장 짧은 출판 경로라고 주장 할 수 있습니다.

단일 기기 (적절한 앱이 설치된 Android 전화)에서 모든 작업을 수행 할 수 있으며 기본적으로 무료로 높은 정확도의 속도로 즉시 완료 할 수 있습니다.

다음은 Google 문서에서 조각을 붙여 넣은 것입니다.
여기에 이미지 설명을 입력하십시오

다음은 Google 문서 URL 공유입니다. 의견을 남겨주세요. 문서를 원격으로 동시에 편집하는 데 도움을 줄 수도 있습니다.

https://docs.google.com/document/d/1aizUDOHerSraU3fIw6lHLabmLSNsQ7PMXOl1IHHE0RU/edit?usp=drivesdk

마지막으로 여기에 위에서 언급 한 문서를 링크 소스로 사용하여 게시 된 Google 사이트 도구 웹 사이트가 있습니다.

https://sites.google.com/h-lo.me/ocrsample

https, 데스크톱 및 모바일 지원이며 취향에 따라 일반적으로 눈이 아프지 않습니다. 15 분의 총 작업 시간 동안 나쁘지 않고 코딩 작업이 필요하지 않습니다.


이 왼쪽 한 정제이며, 그 만드는 것입니다 적절한 단락을 구글 렌즈가 자신의 단락 및 사용할 경우이 문제가 될 것입니다 모든 라인을 만드는 추출 된 텍스트의 모든 라인 후 하드 리턴을 삽입하기 때문에, 구글 문서 목차 와 같은 Google 문서 기능 또는 문서를 호환되는 전자 출판 전자 책으로 내보낼 때 (텍스트 리플 로우)

모든 줄 시작에서 백 스페이스 키를 쳐서 적절한 곳에 모든 줄을 조인하거나 스크립트로 자동화 할 수 있습니다.

그래서이 프로세스를 자동화하기 위해 곧 게시 할 앱 스크립트 추가 기능을 작성 중입니다. 완료되면 알려 드리겠습니다.


훌륭한 세부 사항. 나는이 무료 솔루션을 좋아한다. 감사!
Kyle Bridenstine 2018 년

천만에요! 당신은 당신이 이미 필요한 모든 것을 가질 수 있습니다! :)
hlecuanda 2016 년

두꺼운 책의 경우이 방법은 매우 노동 집약적 인 방법입니다. 각 페이지를 수동으로 뒤집은 다음 사진을 찍어야합니다.
Hobbes

6

단계적으로 수행 할 수 있습니다. 페이지 스캔으로 모든 것을 온라인 상태로 만들고 가능하면 언제라도 업데이트하는 것으로 시작하십시오. cerlox ™ 플라스틱 콤 바인딩을 사용하면 분리하여 다시 쉽게 바인딩 할 수 있습니다.

인쇄가 같은 크기의 일반 세리프 유형 인 것처럼 보이기 때문에 광학 문자 인식 소프트웨어를 사용하여 스캔을 디지털화 할 수 있습니다. OCR은 최종 양식을 위해 웹 사이트에서 교정하고 게시 할 수있는 임시 텍스트 파일을 제공 할 수 있습니다.

동시에 사진과 기타 그림 자료를 정리할 수 있습니다.

프로젝트에 시간 / 자원을 사용할 수있게되면이를 수행 할 수 있습니다.


이전 답변과 비슷하지만 상세하지는 않습니다.
Trajan Espelien

@TrajanEspelien 이전 답변은 무엇입니까? 타임 스탬프를 확인하십시오. 답은 hiecuanda 제출 이틀 전에 처음이었습니다. :)
스탠

네,하지만 다른 답변만큼 자세하게 설명되어 있지 않기 때문에 다른 하나를 수락했습니다. 처음에는 서버가 아닙니다. 최고의 답변입니다.
Kyle Bridenstine 2016 년

@KyleBridenstine No Kidding! 나는 hiecuanda도 찬성했다. 큰 대답이었습니다. 그건 그렇고, 안드로이드 폰이 없거나 Glass에 액세스 할 수 없다면 어떻게해야합니까? 나는 그 질문에 대한 일반적인 대답을했다. :)
스탠

1
@KyleBridenstine 친절한 말 감사합니다. 우리는 동의한다. 기다림으로써 옳은 일을했다고 생각합니다. 첫 번째 답변은 최선의 방법이 아닙니다 ( 어떤 이유 아니라면 마감일이 있습니다). 나는 여러분의 질문에 대한 링크를 보내 왔습니다. 브라질!
Stan

2

여기에 직접 접근 한 좋은 답변입니다.

다른 사람에게 비용을 지불 한 경험을 추가하고 싶습니다.

영국에서 Digitize My Books 를 사용했습니다 .

결과에 매우 만족했습니다. 각 책은 검색 가능한 (및 복사 가능한) 텍스트가있는 PDF로 반환됩니다. 표준 PDF 기술이 사용되어 각 페이지의 원본 이미지는 유지되지만 텍스트 오버레이를 사용하여 페이지에서 원본 텍스트를 강조 표시 할 수 있습니다. 아주 좋은 가치. 영국에서 온 해외 사람으로서도 여전히 책을 보낼 수 있습니다.

또한 책을 추가 가능하지만 매우 저렴한 비용으로 편집 가능한 단어 문서 형식으로 만들 수있는 옵션을 제공합니다.

원본을 반환하지 않아도된다면 가장 저렴한 옵션은 파괴적인 스캔을 선택하는 것입니다. 이 페이지는 책에서 개별적으로 페이지를 가져 와서 스캔하는 곳입니다. 원래 책은 반환되지 않지만 추가 비용 (예 : 반송 우송료)으로 책을 요청할 수 있다고 생각하지만 페이지가 느슨해져 개별적으로 스캔하기 위해 페이지가 제거됩니다. 파괴적 스캔은 모든 책에 대해 선택한 옵션이며 원본을 반환하지 않아도됩니다.

원본이 필요한 경우 비파괴 복사 기능도 제공하지만 비용은 더 높습니다. 또한 책을 직접 스캔 한 경우 자신의 디지털 스캔도 허용합니다. 검색 가능하고 복사 가능한 PDF 또는 Word 문서로 만들 수 있습니다.

그들의 웹 사이트를 둘러보십시오. 나는 이것이 최선의 선택이라고 생각한다.

나는 나의 책을 디지털화하기 위해 일하지 않으며 그들에 대한 재정적 이해 관계가 없다 (주주 등).

원래는 클립 보드 클립과 블루 탁으로 열린 각 페이지에서 DSLR 카메라 (사진은 평판 스캔보다 빠름)를 사용하여 사진을 찍어 책에서 직접 "스캔"하기 시작했습니다. 그러나 나는 이것이 노동 집약적이라는 것을 알았습니다.

여전히 스스로하고 싶은 경우 ScanTailor 는 오픈 페이지 Windows 응용 프로그램으로, 이중 페이지 / 한 쌍의 페이지를 개별 페이지로 스캔 한 후 똑 바르게하고 "제거"하는 오픈 소스 Windows 응용 프로그램입니다. 결과 페이지가 원하는대로 평평하고 똑 바르게 표시되지만 OCR은 수행되지 않습니다. 결과는 여전히 비트 맵 이미지입니다. 그러나 적어도 페이지의 왜곡, 특히 비파괴 복사를 일괄 정리하여 큰 책에 대해 페이지를 완전히 평평하게 배열하기 어려운 경우가 있습니다.

업데이트

서비스에서 제공하는 스캔 옵션에 대한 추가 정보가 추가되었습니다. ScanTailor 추가 정보. 문법 교정.


1

가장 빠른 방법은 친척에게 연락하여 책을 만들 때 사용한 원본 파일이 있는지 확인하는 것입니다. 첫 페이지 사진에서 나는 그것이 컴퓨터에서 만들어 졌다고 말할 것입니다. {이전 단어 프로세서 패키지를 여기에 삽입}에서 현재 형식으로 변환하면 완료됩니다.

인쇄물 더미를 디지털 문서로 바꾸는 두 번째로 빠른 방법 :

  1. 바인딩을 제거하십시오.
  2. 구멍을 제거하려면 페이지의 왼쪽 가장자리를 잘라내십시오. 구멍이 문서 공급기를 방해합니다.
  3. 책을 살펴보고 문서 공급기를 방해 할 수있는 주름 및 기타 손상을 펼치십시오.
  4. 문서 공급기와 스캔 기능이있는 합리적으로 현대적인 양면 인쇄 장치를 찾으십시오. PDF로 스캔하십시오.

그런 다음 OCR 패키지를 사용하여 스캔 한 페이지를 Word 파일로 변환하십시오. 이 목적으로 Adobe Acrobat 정식 버전에서 OCR 기능을 사용하지만 많은 OCR 엔진이 있습니다.


0

매우 저렴한 서비스 인 preserve-your-memories.info를 사용해보십시오. 직접 수행 할 때 스캐너를 사용하여 OCR 프로그램 인 OmniPage로 스캔 한 다음 완전히 검색 가능한 PDF 파일로 저장합니다. 발행물이 플라스틱 빗으로 묶여 있기 때문에 개별 페이지를 스캔 한 다음 리 바인딩하기가 쉽습니다. 위의 제안에 설명 된대로 사진을 찍는 것도 매우 유용합니다. 여러 방법 중 하나입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.