복사 한 텍스트에서 합자를 제거 할 수 있습니까?


10

텍스트에 합자가 포함 된 PDF가 있습니다 (예 : ff단일 문자로 결합 됨 ).

PDF에서 텍스트를 복사 할 때 쉽게 제거 할 수 있습니까? (I 붙여 넣기 할 때이 같은 즉, 나는 거라고 로 붙여 넣을 수 ff).

이 PDF의 많은 텍스트를 Stack Overflow에 대한 답변으로 복사하고 합자가 최선이 아니라는 것을 알았습니다 (좋습니다. 합자도 다른 위치에 복사 할 때 올바르게 표시되지 않습니다 (예 : 메모장에 복사하면 블록으로 표시됨).

PDF를 수정할 수 없습니다.

Adobe Acrobat Reader와 Foxit Reader를 모두 사용하지만 새로운 PDF 리더를 사용할 수 있습니다.

답변:


3

파이썬에서는 다음과 같습니다.

import unicodedata
# \uFB00 is the ff ligature.
unicodedata.normalize('NFKD',u'\uFB00').encode('ascii','ignore')

이것을 pyPdf 와 결합 하여 pdf 파일을 읽을 수 있습니다.


2

독자의 명시하다는 내가이 시험 때 디코드 합자 보인다.

Btw. pdflatex 문서의 경우 프리앰블에서이를 사용하여 PDF 문서에 합자를 표시 할 수 있지만 개별 문자를 복사 할 수 있습니다.

\ 입력 {glyphtounicode.tex}
\ pdfgentounicode = 1 %

1

하나의 가능성은 좋아하는 텍스트 편집기를 사용하고 간단히 바꾸는 것입니다.

또 다른 방법은를 사용하는 스크립트를 작성하는 것 sed입니다. ..하지만 * NIX-Systems 일뿐입니다.


GnuWin32와 당신은 창문에 sed했습니다.
mbq

@mbq : 그것도 포함되어 있습니까? 아주 좋아요 고마워.
Bobby

0

비슷한 질문에 더 깊이 대답했습니다 . PDF에서 복사하거나 문서를 인쇄 할 때`fi` 텍스트가 잘리는 이유는 무엇입니까?

깨진 단어에서 원래 단어로 매핑 된 경우 복사 된 텍스트에서 "깨진"단어를 바꿀 수 있습니다. 단어에서 합자를 제거하고 결과 단어가 고유한지 확인하여이 매핑을 생성하는 스크립트를 작성했습니다. 영어 단어의 내 사전의 경우, 99.5 % 가능한 모든 깨진 단어는 교체하고, 92.3 % 합자 시퀀스를 포함하는 단어는 ( ff, fi, fl, ffi, 또는 ffl) 복구 할 수 있습니다. 이 두 백분율의 차이는 다른 합법적 인 단어 (예 butterfly --> buttery: fluffs --> us, 및 misfits --> mists) 에서 인대를 제거하여 생성 된 놀랍게도 많은 합법적 인 단어 때문 입니다.

다음은 보장 가능한 대체 가능한 "깨진"단어 (및 이전에 사용한 단어)의 CSV입니다. http://www.filedropper.com/brokenligaturewordfixes


파일을 제공하는 것이 좋습니다. 그러나 현실적으로 상식을 가진 사람은 알 수없는 파일 (특히 새로운 사용자로부터)을 다운로드하지 않습니다. 파일이 많은 트래픽을 얻지 못하면 개인적으로 가져 가지 마십시오. 귀하의 노력에 감사하지 않음을 의미하지는 않습니다.
fixer1234

예, 이해합니다 그런 링크를 확인하거나 파일 형식을 보장하는 간단한 방법이 있었으면합니다. 감사!
Jan Van Bruggen

0

내 방법은 단순히 PDF에서 메모장으로 복사하여 붙여 넣은 다음 (포맷을 제거하기 위해) 메모장에서 Microsoft Word로 붙여 넣는 것입니다.

Word에서는 모든 합자가 다른 서식 글꼴로 변경됩니다.

나는 각각에 대해 찾기와 바꾸기를 사용하고 (수동 줄 중단을 위해 ^ l과 수동 페이지 중단을 위해 ^ m과 같이 온라인으로 쉽게 찾을 수 있습니다) 올바른 양식으로 바꿉니다.

4 단계 또는 5 단계로 모든 가능성을 매우 빠르게 다룹니다. 추가 단락 중단도 제거하는 것이 좋습니다 (^ P)

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.