언어별로 PDF 파일 대량 정리


1

각 파일 내부의 텍스트 언어에 따라 2500 PDF 파일을 구성하는 방법이 있습니까? 다른 언어로 된 2500 유지 관리 설명서가 있고 단일 폴더에 영어로 된 파일 만 추출해야합니다.

인터넷에서 아무것도 발견하지 못했습니다 :-)

감사합니다


파일 이름이 file_en 또는 file_es와 같은 언어에 대해 '힌트'를 제공합니까?
Dave

답변:


1

일반적으로 특정한 경우에 가능할 수도 있지만 상당한 노력을 기울여야합니다.

일반적으로

PDF 사양에 PDF 텍스트의 기본 언어를 나타내는 메타 데이터의 존재를 요구하는 것이 없다고 확신합니다. 존재하더라도 PDF 작성 소프트웨어 응용 프로그램이 너무 많아 일부 응용 프로그램을 생략하거나 일반 값으로 설정할 수 있습니다.

임의의 텍스트 인코딩을 사용하는 PS 파일에서 PDF를 만들 수 있다고 확신합니다. 즉, PDF 내용에서 인코딩을 결정할 수 있다고 보장 할 수 없습니다. 따라서 언어를 추측 할 텍스트를 추출 할 수 있는지 확신 할 수 없습니다.

구체적인 경우

PDF가 모두 하나의 소스에서 제공되고 모두 동일한 도구 세트를 사용하여 생성되고 제한된 범위의 언어가있는 경우 원하는 작업을 수행하기 위해 프로그램이나 스크립트를 작성할 수 있습니다. 그러나 충분한 수의 사람들이 특정 경우에 효과가있는 기존 솔루션을 쉽게 찾을 필요가있을 것 같지는 않습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.