나는 장님 인 친구가 있는데, 나는 그에게 읽어 줄 PDF를 가지고있다.
PDF는 약 200 페이지의 아름답게 디자인 된 텍스트입니다 (텍스트가 포함 된 그림과 그림이 몇 개 있지만 수동 정리로 볼 수있는 경우는 거의 없습니다). 유감스럽게도 PDF의 논리적 구조는 잘못 표현됩니다. PDF는 2 열 텍스트 흐름을 인식하지 못하고 색인 및 목차 항목이 실제로 링크가 아닙니다.
필자는 Linux 컴퓨터에 쉽게 액세스 할 수 있으며 Windows XP 시스템에 약간 쉽게 액세스 할 수 없으며 포스트 프로세스를 자동화하기위한 정규 표현식 및 스크립팅 언어를 사용하고 있습니다.
지금까지 PDF를 세로로 반으로 자르는 방법을 발견했습니다. http://snipplr.com/view/18924/split-crop-double-page-pdfs-in-two/ , PDF를 PDF1.4로 변환 한 후 교차 참조를 포함하지 않거나 호출 된 내용이없는 경우), 대부분의 내용이 올바른 순서로 표시되고 pdftohtml
마크 업과 함께 텍스트를 추출합니다. 안타깝게도 문서의 논리적 구조를 재현 할 수는 없습니다 (일부 기울임 꼴 표식은 인식 할 수 있지만 단락은 말할 것도없고 항상 글꼴 크기와 색상을 일관되게 사용하여 강조 표시된 모든 장, 섹션 및 하위 섹션 헤드 라인을 이미 잃어 버렸습니다) 기타.)
나는 큰 희망을 품었다. 구경 ,하지만 그 변환 도구는 심하게 마크 업 된 2 열 PDF 파일을 처리 할 수 없으며 단락을 함께 유지하는 데 몇 가지 장점이 있지만 사용 된 글꼴에서 구조를 파생시킬 수 없습니다.
시각 장애인이 액세스 할 수있는 형식으로 PDF를 변환하려면 어떻게해야합니까?