비표준 문자 인코딩으로 PDF 검색


19

일부 PDF 파일은 텍스트를 복사 할 때 가비지 ( " mojibake ")를 생성합니다 ( 올바로 렌더링 되더라도). 따라서 검색이 불가능합니다 (검색하는 것이 쓰레기와 일치하지 않음).

누구나 쉬운 해결 방법이 있습니까?

예 :

  1. TEAC TV 설명서 EU2816STF (Windows 및 Mac 모두에서 Adobe Reader에서 위의 문제가 발생하지만 Mac에서 미리보기에서는 제대로 작동 함)
  2. Leadtek Winfast PVR2 매뉴얼 (FTP 링크; Mac의 미리보기에도 문제가 있음)
  3. Swann TV 튜너 카드 설명서 (FTP 링크; Mac의 미리보기에도 문제가 있음)
  4. Phonedisc 라이센스 계약 (이제 기능이없는 DTMS에서 )
  5. 맥쿼리 IFP 분기 별 펀드 검토
  6. BAN-TACS Small Business 소책자 (아카이브 버전)
  7. Easterfest 2004 전단지 (아카이브에서)

Windows 용 Adobe Reader (최신 버전)를 사용하고 있습니다. 다른 뷰어가 도움이 될 수 있습니까? Windows 용 무료 솔루션을 찾고 있습니다. 오픈 소스가 더 좋을 것입니다.

편집 : 다가 추출 텍스트 도구의 문서에는 다음을 포함하여 문제가 발생할 수있는 이유에 대한 요약이 있습니다.

  • 텍스트에는 유니 코드 매핑이 없을 수 있습니다. PDF Type 3 글꼴은 종종 그렇지 않으며 TeX DVI에는 유니 코드와 동등한 문자가 없습니다.
  • 유니 코드 인코딩은 버그 일 수 있습니다. Open Office는 일부 문자를 동일한 유니 코드로 매핑하여 문자가 떨어지거나 배가됩니다.

이 경우 궁극적 인 해결책은 글꼴의 각 글리프를 OCR로 작성하여 실제로 어떤 문자인지 알아내는 것입니다. 글리프의 정확한 모양을 사용할 수 있기 때문에 노이즈가 많은 스캔 된 문서를 OCR 처리하는 것보다 쉽습니다 ( "벡터"이미지이므로 무한 해상도로).


사용 clipbrd.exe(참조 mydigitallife.info/2008/11/06/...을 클립 보드에 무엇을 볼 수 있습니다). 그게 당신에게 무엇을 제공합니까?
Arjan

@Arjan van Bentem : 메모장에 붙여 넣을 때 얻는 쓰레기와 똑같은 쓰레기를줍니다.
휴 알렌

형식에 대한 자세한 내용은? 나는 Mac에 있지만 Windows가 무언가가 이미지인지 텍스트인지 알려주고 텍스트에 대해 인코딩에 대해 알려 줄 것이라고 가정합니다.
Arjan

TV 수동 예 : Mac의 Adobe Reader 8.1.2와 동일한 문제이지만 Mac의 미리보기를 사용하여 텍스트를 복사하거나 검색하는 데 아무런 문제가 없습니다. 문서 속성에 글꼴에 대한 "인코딩 : 사용자 정의"가 표시됩니다 ( img.skitch.com/20100318-827uckkb5i326eta291f3qig3u.png 참조 ). (같은 "은 ANSI 인코딩"또는 "로마"와 Mac에서 Adobe Reader에서 아무런 문제가없는 다른 PDF 문서 등을 표시 adobe.com/education/pdf/type_primer.pdf의 수익률 img.skitch.com/20100318-tbyjrny9bsg684eqhr7b3au7fb.png ).
Arjan

1
또한 pdftextonline.com 은 TV 설명서 나 Phonedisc 문서에서 텍스트를 가져올 수 없습니다 (다른 방법은 시도하지 마십시오). 그러나 Gmail로 전송 한 후 HTML과 같이 볼 않습니다 (미리보기는 해당 문서에 아무런 문제가없는 것처럼) 매뉴얼 TV에 대한 작업을 ...
Arjan

답변:


3

어쩌면 Foxit Reader ?

가치가있는 것은 Mac OS X 10.6.2에서 Safari 4.0.4와 연결된 PDF를 확인한 것 입니다. Engrish 있는 동안 PDF는 화면상의 "쓰레기"없이 완벽하게 렌더링됩니다. 아마도 유니 코드 문제가 있습니까 (Mac OS보다 Windows에서 더 일반적입니까)?


쓰레기는 화면에 없습니다-텍스트를 복사 할 때 클립 보드에 있습니다. 시도 할 때 어떻게됩니까?
휴 알렌

@ 휴 : 특징 􏰃 원격 제어 컬러 텔레비전입니다. V VHF, UHF 대역 또는 케이블 채널에서 100 개의 프로그램을 사전 설정할 수 있습니다. cable 케이블 채널을 조정할 수 있습니다. menu 메뉴 구동 시스템으로 TV를 매우 쉽게 제어 할 수 있습니다. external 외부 장치 (예 : 컴퓨터, 비디오, 비디오 게임, 오디오 세트 등)를위한 3 개의 Euroconnector 소켓이 있습니다.
Alex

@ 휴 : 글 머리 기호가 제대로 복사되지 않지만 나머지는 복사됩니다. 특히 어떤 섹션 / 페이지 / 문단에 문제가 있습니까? 시험해 보도록하겠습니다.
Alex

그것의 모든. Windows 용 Adobe Reader를 사용하고 있습니다. 방금 도움이되지 않은 최신 버전으로 업데이트했습니다. 정보 주셔서 감사합니다. Adobe Reader에는 OSX와 공유하지 않는 버그가 있다고 생각합니다.
휴 알렌

4
Foxit Reader를 사용해 보았는데 같은 문제가 있습니다. 설치 프로그램은 도구 모음을 설치하고 홈페이지 등을 수정하고 싶을 때 실제로 방해가됩니다. (
Hugh Allen

3

이 문제를 해결하는 가장 간단한 방법 은 PDF 읽기 플러그인이 내장최신 버전의 Chrome 에서 파일을 여는 것 입니다. 그런 다음 Chrome의 검색 기능을 사용하여 텍스트를 찾고 복사하여 붙여 넣기가 올바르게 작동합니다.


2

들어 TV를 수동 예 : 동일한 Mac에서 어도비 리더 8.1.2에서 문제가 있지만, 어떤 복사하거나 텍스트를 검색하는 맥의 미리보기를 사용하여 문제. 또한 Gmail 계정으로 보낸 다음 "보기"를 선택한 다음 "일반 HTML"을 선택하면 텍스트가 표시됩니다. 그러나 Adobe Reader는 그것을 좋아하지 않습니다.

문서 속성에 글꼴에 대한 "인코딩 : 사용자 정의"가 표시됩니다. 다른 문서는 "Encoding : Ansi"또는 "Roman"과 같은 것을 보여 주며 Mac의 Preview 또는 Adobe Reader에는 아무런 문제가 없습니다.

여기에 이미지 설명을 입력하십시오

여기에 이미지 설명을 입력하십시오

그러나 LeadtekSwann 예제는 Mac 및 Gmail에서도 미리보기에 문제가 있으며 둘 다 "인코딩 : Identity-H"로 표시됩니다. Phonedisc의 시험은 "사용자 정의 인코딩"으로도 실패합니다.

혼란스럽고 일관성이 없지만 일부 Adobe 포럼 에서 "인코딩 : 사용자 정의"(강조 표시)를 보여주는 또 다른 예제에 대한 다음 설명을 발견했습니다 .

PDF 내부를 살펴본 후 문서의 페이지에 표시되는 문자 / 글리프의 의미를 도출하는 데 사용할 수있는 인코딩 정보가 없습니다 (PDF 또는 내장 글꼴 데이터에 없음).

실제로 글꼴은 모두 포함되어 있지만 모든 인코딩 정보가 제거되었습니다. 이것은 PDF 사양과 구문 적으로 완벽하게 호환되지만 PDF 를 만드는 과정에서 텍스트의 의미에 대한 중요한 정보 가 삭제 된 PDF의 전형적인 예입니다 . 내가 알 수있는 한 인코딩 정보를 복구하는 것은 매우 어려울 것입니다.

"인코딩 : 사용자 정의"를 사용해도 Adobe Reader가 실패 할 때 Mac의 미리보기 (및 분명히 Infix도 마찬가지 임)가 일부 예제를 처리 할 수있는 이유는 설명하지 않습니다 . 컴퓨터 자체에 정확한 글꼴이있을 때 미리보기에 문제가 없을 수 있습니다. 아니면 일부 문서에서만 작동하는 인코딩을 추측하는 것일 수 있습니까?

이 문제의 원인 : Google 문서 나 Gmail을 통과해도 효과가 없다면 가장 쉬운 방법은 아니지만 TIFF로 저장 한 다음 OCR 을 수행하는 것 입니다. Evernote 와 같은 서비스 는 즉석에서 수행 할 수 있습니다 (이미지에서는 OCR을 수행하지만 PDF에서는 OCR을 수행 할 것으로 의심됩니다).


-1

파일 1의 다운로드가 실패했습니다. 파일 2 빠른 오픈 소스 pdf 뷰어 인 xpdf로 열 수 있습니다. 양식을 처리 할 수 ​​없지만 순수한 텍스트와 grafic의 경우 빠른 시작 시간을 선호합니다.


1
문제는 PDF를 "열기"나 "빠른 시작 시간으로 열기"에 관한 것이 아닙니다. 대신 렌더링 된 페이지에서 텍스트 스 니펫을 복사하여 붙여 넣을 수 없었습니다. 따라서 귀하의 답변은 아마 좋은 것이지만이 질문에는 맞지 않습니다.
Kurt Pfeifle

-2

불행히도 도움이 될 수 없습니다. PDF 문서는 실제로 문자를 포함하지 않지만 문자 모양을 포함합니다. 즉, 다른 PDF 읽기 응용 프로그램처럼 문자를 읽고 화면에 Adobe Reader를 그리는 대신 파일로 인코딩 된 벡터 그래픽을 간단히 그립니다 .

그러나 일부 PDF 리더에는 텍스트 인식을 사용하여 모양을 분석하고 텍스트를 복구 할 수있는 소프트웨어가 제공됩니다. 인쇄 된 텍스트의 종이를 스캔하고 ABBYY FineReader와 같은 소프트웨어를 사용하여 다시 텍스트로 변환하는 것과 동일하게 작동하지만 무한한 고품질의 벡터 도면으로 인해 스캔 한 문서보다 결과가 훨씬 좋습니다.

일부 문서는 Adobe Reader를 속여서 텍스트로 변환되지 않도록 보호 할 수 있습니다. 예를 들어 문자 인식 소프트웨어가 텍스트를 인식하지 못하는 반면 문자는 시각적으로 동일하게 보이도록 여러 개의 겹치는 모양으로 그릴 수 있습니다. 귀하의 문서는 그러한 보호의 예입니다.

한 가지 방법은 문서를 이미지로 인쇄하고 텍스트 인식 소프트웨어가 인식하도록하는 것입니다. 이미지의 해상도가 높을수록 품질이 향상됩니다. 그러나이 방법은 실제로 유용하지 않습니다.


2
PDF 문서에는 실제로 문자가 포함되어 있지 않습니다. 대부분의 스캔되지 않은 문서에는 해당되지 않습니다. 참조 en.wikipedia.org/wiki/Portable_Document_Format#Text
Arjan

감사합니다. 흥미로운 정보. PDF에는 텍스트에 대한 정보가 없다고 항상 생각합니다. 그럼에도 불구하고 Alexander가 제공 한 문서에는 텍스트가 포함되어 있지 않은 것 같습니다. 또는 거기에 사용되는 글꼴에 이상한 문자 인코딩이있을 수 있습니다. 즉, 일반적인 ASCII 인코딩과 일치하지 않습니다.
Sergiy Belozorov

2
모양이 단순한 경우 PDF에서 텍스트를 어떻게 복사 할 수 있습니까? 당신은 부분적으로 옳습니다-PDF로 스캔되지는 않지만 (스캔 된 소스가 아닌 경우) 텍스트 데이터가 포함됩니다. 그러나 글꼴도 포함되어 있으므로 포함 된 텍스트를 벡터로 렌더링 할 수 있습니다.
Alex
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.