PDF에서 텍스트를 복사하려고하는데 쓰레기가 생깁니다.


4

텍스트를 복사하려고합니다. PDF 파일에서 그러나 나는 쓰레기를 얻는다. 우분투 문서 판독기를 사용하여 문서를 읽었습니다. 그것은 내가 복사를 허용하지 않는 것과는 다르지만 복사 된 텍스트는 다음과 같이 보입니다.

RFRPSLOHJFFDUSVQLIIHUFRDUSVQLIIOSFDS    

5XQDVURRW

LQFOXGHSFDSK!
LQFOXGHVWGOLEK!
LQFOXGHVWULQJK!

$53+HDGHUDVVXPLQJ(WKHUQHW,3Y

GH¿QH$53B5(48(67
$535HTXHVW

GH¿QH$53B5(3/<
$535HSO\

W\SHGHIVWUXFWDUSKGU^
XBLQWBWKW\SH
+DUGZDUH7\SH

XBLQWBWSW\SH
3URWRFRO7\SH

XBFKDUKOHQ
+DUGZDUH$GGUHVV/HQJWK

XBFKDUSOHQ
3URWRFRO$GGUHVV/HQJWK

XBLQWBWRSHU
2SHUDWLRQ&RGH

XBFKDUVKD>@
6HQGHUKDUGZDUHDGGUHVV

XBFKDUVSD>@
6HQGHU,3DGGUHVV

XBFKDUWKD>@
7DUJHWKDUGZDUHDGGUHVV

XBFKDUWSD>@
7DUJHW,3DGGUHVV

이 문제를 해결하려면 어떻게해야합니까? 그것의 대량의 데이터는 입력하는 데 정말로 오랜 시간이 걸릴 것입니다.

또한 덧붙여 말하면 붙여 넣은 텍스트는 gedit (우분투)에서 다음과 같이 보입니다.

on my system (이 질문에 여기에 붙일 때 다르게 보입니다!)

나는 그것이 어떻게 든 인코딩 문제라고 느낀다. 그러나 나는 이것을 고치는 법을 알 방법이 없다.


3
나는 그것이 의도적으로 생각한다. 의도적으로 문서를 만든 사람이 복사 / 붙여 넣기 나 내보낼 수 없도록 만들었습니다. 나는 이것 같이 약간 PDF 's를 너무 가지고있다. 주로 Adobe 소프트웨어에서 PDF로 만든 표 또는 엑셀 스프레드 시트.
skub

@slhck 확실! 이리 그것은
Chani

답변:


2

기본 텍스트가 왜곡됩니다. 나는 그것이 의도적 일 수 있다고 생각하는 것이 낫다고 생각한다. 텍스트를 가져 오는 한 가지 방법은 각 페이지를 이미지로 내보내는 것입니다 (예 : .jpg 또는 .png ) 다음 이미지를 스캔하십시오. OCR 소프트웨어. Windows 7에서 Adobe Acrobat X를 사용하여 테스트 할 수있었습니다. 그것은 효과가 있었다.

최신 정보:

문서 뷰어에 비슷한 기능이있는 경우, copy with formatting 텍스트를 예상대로 복사합니다. 더 깊게 파헤 치면 임베드 된 글꼴 모든 가지고있다 사용자 정의 인코딩 .


2
자세히 알아보기 우분투 용 OCR 자료 (OP가 그것을 사용하고 있기 때문에).
slhck
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.