PDF에서 텍스트를 복사하려고하는데 쓰레기가 생깁니다.

텍스트를 복사하려고합니다. PDF 파일에서 그러나 나는 쓰레기를 얻는다. 우분투 문서 판독기를 사용하여 문서를 읽었습니다. 그것은 내가 복사를 허용하지 않는 것과는 다르지만 복사 된 텍스트는 다음과 같이 보입니다.

RFRPSLOHJFFDUSVQLIIHUFRDUSVQLIIOSFDS    

5XQDVURRW

LQFOXGHSFDSK!
LQFOXGHVWGOLEK!
LQFOXGHVWULQJK!

$53+HDGHUDVVXPLQJ(WKHUQHW,3Y

GH¿QH$53B5(48(67
$535HTXHVW

GH¿QH$53B5(3/<
$535HSO\

W\SHGHIVWUXFWDUSKGU^
XBLQWBWKW\SH
+DUGZDUH7\SH

XBLQWBWSW\SH
3URWRFRO7\SH

XBFKDUKOHQ
+DUGZDUH$GGUHVV/HQJWK

XBFKDUSOHQ
3URWRFRO$GGUHVV/HQJWK

XBLQWBWRSHU
2SHUDWLRQ&RGH

XBFKDUVKD>@
6HQGHUKDUGZDUHDGGUHVV

XBFKDUVSD>@
6HQGHU,3DGGUHVV

XBFKDUWKD>@
7DUJHWKDUGZDUHDGGUHVV

XBFKDUWSD>@
7DUJHW,3DGGUHVV

이 문제를 해결하려면 어떻게해야합니까? 그것의 대량의 데이터는 입력하는 데 정말로 오랜 시간이 걸릴 것입니다.

또한 덧붙여 말하면 붙여 넣은 텍스트는 gedit (우분투)에서 다음과 같이 보입니다.

on my system (이 질문에 여기에 붙일 때 다르게 보입니다!)

나는 그것이 어떻게 든 인코딩 문제라고 느낀다. 그러나 나는 이것을 고치는 법을 알 방법이 없다.

ubuntu pdf encoding

— Chani
소스

나는 그것이 의도적으로 생각한다. 의도적으로 문서를 만든 사람이 복사 / 붙여 넣기 나 내보낼 수 없도록 만들었습니다. 나는 이것 같이 약간 PDF 's를 너무 가지고있다. 주로 Adobe 소프트웨어에서 PDF로 만든 표 또는 엑셀 스프레드 시트.

— skub

@slhck 확실! 이리 그것은

— Chani

기본 텍스트가 왜곡됩니다. 나는 그것이 의도적 일 수 있다고 생각하는 것이 낫다고 생각한다. 텍스트를 가져 오는 한 가지 방법은 각 페이지를 이미지로 내보내는 것입니다 (예 : .jpg 또는 .png ) 다음 이미지를 스캔하십시오. OCR 소프트웨어. Windows 7에서 Adobe Acrobat X를 사용하여 테스트 할 수있었습니다. 그것은 효과가 있었다.

PDF에서 텍스트를 복사하려고하는데 쓰레기가 생깁니다.

최신 정보: