일부 PDF 파일은 텍스트를 복사 할 때 가비지 ( " mojibake ")를 생성합니다 ( 올바로 렌더링 되더라도). 따라서 검색이 불가능합니다 (검색하는 것이 쓰레기와 일치하지 않음).
누구나 쉬운 해결 방법이 있습니까?
예 :
- TEAC TV 설명서 EU2816STF (Windows 및 Mac 모두에서 Adobe Reader에서 위의 문제가 발생하지만 Mac에서 미리보기에서는 제대로 작동 함)
- Leadtek Winfast PVR2 매뉴얼 (FTP 링크; Mac의 미리보기에도 문제가 있음)
- Swann TV 튜너 카드 설명서 (FTP 링크; Mac의 미리보기에도 문제가 있음)
- Phonedisc 라이센스 계약 (이제 기능이없는 DTMS에서 )
- 맥쿼리 IFP 분기 별 펀드 검토
- BAN-TACS Small Business 소책자 (아카이브 버전)
- Easterfest 2004 전단지 (아카이브에서)
Windows 용 Adobe Reader (최신 버전)를 사용하고 있습니다. 다른 뷰어가 도움이 될 수 있습니까? Windows 용 무료 솔루션을 찾고 있습니다. 오픈 소스가 더 좋을 것입니다.
편집 : 다가 추출 텍스트 도구의 문서에는 다음을 포함하여 문제가 발생할 수있는 이유에 대한 요약이 있습니다.
- 텍스트에는 유니 코드 매핑이 없을 수 있습니다. PDF Type 3 글꼴은 종종 그렇지 않으며 TeX DVI에는 유니 코드와 동등한 문자가 없습니다.
- 유니 코드 인코딩은 버그 일 수 있습니다. Open Office는 일부 문자를 동일한 유니 코드로 매핑하여 문자가 떨어지거나 배가됩니다.
이 경우 궁극적 인 해결책은 글꼴의 각 글리프를 OCR로 작성하여 실제로 어떤 문자인지 알아내는 것입니다. 글리프의 정확한 모양을 사용할 수 있기 때문에 노이즈가 많은 스캔 된 문서를 OCR 처리하는 것보다 쉽습니다 ( "벡터"이미지이므로 무한 해상도로).
clipbrd.exe
(참조 mydigitallife.info/2008/11/06/...을 클립 보드에 무엇을 볼 수 있습니다). 그게 당신에게 무엇을 제공합니까?