복사 붙여 넣기시 PDF에서 텍스트가 왜곡되었습니다


23

PDF 파일에서 텍스트를 복사하여 붙여 넣으려고합니다.

그러나 원본 텍스트를 붙여 넣을 때마다 문자가 깨지기 쉽습니다. 텍스트는 다음과 같습니다 (작은 작은 추출).

4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03! 
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$! 
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40! 
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'! 
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40! 
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(! 
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97! 
)*+*+, C<88,?>8513AG<5A14, 

Adobe와 Foxit PDF 리더 모두에서 시도했습니다. Adobe Reader에서 '텍스트로 저장'을 수행했으며 결과 텍스트 파일이 깨진 텍스트와 동일합니다.

이 텍스트를 왜곡되지 않게하는 방법에 대한 아이디어가 있습니까? (수동 입력 이외에 ... 추출 할 텍스트가 많이 있습니다.)


jpeg와 함께 작동하고 인쇄 화면을 사용하면 화면 판독기 유틸리티를 사용하거나 다른 방법을 사용하십시오 . (그냥 '추측', 나를 물지 마십시오. 나는 그 당시 첫 번째 방법을 사용했습니다. 더 편리한 방법이 있기를 바랍니다).
Apache


또한 OS 1에서이 문제를 10.8.2 이상으로 확인할 수도 있습니다. PDF 파일 구조를 살펴 보는 데 약간의 시간이 걸렸지 만 불행히도 손상을 복구하는 방법을 볼 수 없습니다. Acrobat Pro의 "PreFlight"는 PDF / A 표준과 비교하여 파일을 확인할 때 파일 관련 문제를보고하며 인벤토리 보고서는 글리프가 명백하게 잘못된 유니 코드 문자에 대해 매핑되는 것을 보여줍니다. Apple에서 ID 12655651로 버그 보고서를 작성했습니다. 업데이트가있을 경우 여기로 다시보고하겠습니다.
KenD

답변:


11

이 문제를 해결하는 가장 간단한 방법 은 PDF 읽기 플러그인이 내장최신 버전의 Chrome 에서 파일을 여는 것 입니다. 그런 다음 Chrome의 검색 기능을 사용하여 텍스트를 찾고 복사하여 붙여 넣기가 올바르게 작동합니다.

나는 시키의 대답에 pipitas의 의견을 투표를하고 싶습니다,하지만 난 creds :( 문제가 될 수없는 사용자 정의 글꼴 인코딩하지 암호화 에서 아크로뱃 파일을 클릭 -.> 속성, 다음 인코딩을 볼 수있는 글꼴 탭을 클릭합니다 보안 탭을 통해 암호화 여부를 확인할 수 있습니다.


실제로, 사용자 정의 글꼴 인코딩은 저에게 범인이었습니다. 그러나 Chrome은 해결책이 아닙니다. PS에서 PDF를 재생성하는 Ghostscript로 부분적으로 문제를 해결했습니다 (PS 소스가있어서 운이 좋았습니다). LaTeX가 합자를 적용하는 문자 그룹 (예 : ff, c, fi 등)은 PDF의 복사 된 텍스트에 표시되지 않으므로 복사 / 붙여 넣기시 약간의 편집이 필요합니다.
Fuhrmanator

1
크롬과 동일한 문제
JinSnow

4

필자가 만든 PDF로이 문제를 발견했으며 문제의 원인을 추적했다고 생각합니다. Mac OS X의 미리보기를 사용하여 PDF 파일 크기를 줄입니다.

Colorsync Utility를 사용하여 PDF로 이미지를 압축하여 이미지가있는 PDF의 전체 파일 크기를 줄이기 위해 일부 Quartz 필터를 만들었습니다. 여기에 설명 된대로 : http://www.macosxhints.com/article.php?story=20031106133852693

원본 (압축되지 않은) PDF 파일에서 텍스트를 쉽게 복사하여 붙여 넣을 수 있지만 파일 크기 줄이기 필터를 통해 해당 PDF를 실행 한 후 압축 된 PDF가 붙여 넣기를 명확하게 복사하지 못합니다. 게시 한 문자열).

그러나 Adobe Acrobat Pro의 문서> 파일 크기 줄이기 기능을 통해 동일한 원본 PDF를 실행하면 압축 된 PDF가 텍스트를 복사하여 붙여 넣을 수 있습니다.

따라서 귀하의 경우에는 PDF 파일이 다른 곳에서 수신되어 실제로 어떤 방식으로 압축되어 있으면 원본 버전으로 갈 수 없다고 가정하여 전적으로 도움이되지 않습니다. 그러나 그것은 설명 일 수 있습니다-파일 크기를 줄이기 위해 어떻게 든 파일이 엉망이되었습니다.

이 기능은 PDF에서 텍스트를 복사하고 붙여 넣을 때 비슷한 문제가 발생하는 컨텐츠 제작자에게 유용 할 수 있습니다. OS X Quartz 필터를 사용하여 PDF를 축소하는 데주의하십시오!

--edit-- PDF를 미리보기와 결합 할 때도이 문제를 발견했습니다. 두 소스 PDF를 복사하여 붙여 넣을 수는 있지만 한 파일에서 다른 파일로 페이지를 드래그 한 다음 결합 된 PDF를 저장하면 결합 된 문서의 텍스트를 복사 / 붙여 넣기 할 수 없습니다. Mac 용 Filemaker Pro 11을 사용하여 동시에 생성 된 두 개의 문서입니다. 서로 다른 인코딩이나 그와 같은 것을 상상할 수 없습니다.


Mac OS 사용자로부터 몇 가지 pdf 파일을 받았습니다. 선택은 괜찮지 만 복사 및 붙여 넣기는 쓰레기를 줄 것입니다. googledoc, adobe 텍스트로 저장을 포함하여 pdf-word 변환기를 많이 사용하면 텍스트가 모두 왜곡됩니다.
tigr

OS X PDF 축소가 원인이라고 생각합니다. 그런 작업을 "실행 취소"할 수단을 알고있는 사람이 있습니까? 감사!
tigr

pdf 파일을 여러 개의 (가상) 프린터로 인쇄했는데 4 배 크기의 pdf 파일이 부풀려졌습니다. 인쇄 된 파일은 이미지이며 텍스트를 선택할 수 없으며 원본은 선택할 수 있습니다 (선인 가능).
tigr

4

해결 방법을 만드는 또 다른 매우 쉬운 방법이 있습니다. :)

CutePdf, Adobe 2 Pdf 프린터 또는 이와 유사한 것을 사용하여 문서를 인쇄하십시오. 결론은 pdf 형식으로 인쇄해야한다는 것입니다.

많은 경우 문제를 쉽게 제거 할 수 있습니다.


2

나를 위해 일한 솔루션 :

  • 문서를 Google 드라이브 / 문서에 업로드
  • Google은 2013 년 현재 PDF를 PDF로 가져옵니다.
  • PDF보기를 열고 파일 > 연결 프로그램 > Google 문서를 선택하십시오.
  • 문서를 내보내는 데 약 1 분이 걸립니다.

결과는 완벽하지는 않았지만 80 %의 결과를 얻었으며 모든 것을 다시 쓸 필요가없는 충분한 텍스트를 제공했습니다!


2

해결 : (Windows 8, Acrobat XI, Office 2010에서 나를 위해 일했습니다)

옵션 1:

  1. "Microsoft XPS Document Writer"를 사용하여 Acrobat에서 인쇄 출력 : "파일 이름 .oxps"
  2. XPS 뷰어로 "... oxps"를 엽니 다. * (아래 의견의 다운로드 링크 참조)
  3. 최고 해상도 (600 DPI)를 사용하여 PDF (Acrobat PDF 또는 CutePDF)로 인쇄하십시오.
  4. Acrobat으로 열고 OCR (검색 가능한 이미지 (정확한)) 옵션을 사용하십시오.

빙고!

코멘트:

  • 가장 높은 해상도와 검색 가능한 이미지 (정확한)를 사용하면 텍스트가 깔끔한 모양을 잃지 않고 저장됩니다. 해상도가 낮 으면 텍스트를 읽을 수 있지만 엉성하게 보입니다.
  • Microsoft XPS (파일) 다운로드 : http://www.microsoft.com/en-us/download/details.aspx?id=11816
  • OCR이 무엇인지 또는 검색 가능한 이미지를 찾을 수있는 곳 (정확한)을 찾거나 "Microsoft XPS Document Writer"를 사용하여 인쇄하는 방법을 모르면 Google에서 직접 경험해보십시오.

* XPS가 설치되지 않은 경우에만 다운로드하십시오.

옵션 2 :

비슷하지만 이미지 (png, tiff, ...)로 저장하면 모든 페이지를 하나의 "PDF"파일로 다시 결합해야합니다.


1
1, 2 및 3 단계는 3 단계 PDF로 건너 뛰기 만하면 먼 길을 보입니다. (예 : PDF 리더 내부에서). XPS를 통해 우회 할 필요가 없습니다.
Hennes

@Hennes 4 단계를 수행하면 오류가 발생합니다Acrobat could not perform OCR on this page because: This page contains renderable text
Fuhrmanator

'렌더링 가능한 텍스트'는 여전히 그려야하는 것으로 들립니다 (렌더링). XPS를 통해 가면 이미 가능하고 OCR 가능 비트 맵으로 저장됩니다. 그러나 그것은 단지 추측입니다.
Hennes

1

정보가 전혀 검색되지 않을 위험이 있습니다. PDF 문서는 본질적으로 하나의 문서로, 다른 하나의 간단한 텍스트로, 다른 하나는 그림으로되어 있습니다. 문서에서 복사하여 붙여 넣을 때 그림을 보면서 텍스트를 표시하지만 클립 보드에 복사되는 것은 텍스트 부분의 해당 부분입니다.

문서 작성 방법에 따라 텍스트 부분의 품질과 가용성이 크게 다를 수 있습니다. Acrobat, Word, PDF 프린터 드라이버 또는 기타 방법을 사용하여 워드 프로세서 문서를 PDF 형식으로 저장하면 텍스트 파일을 원본의 텍스트로 만들 수 있으므로 품질이 일반적으로 우수합니다. 일부 특수 문자는 왜곡 될 수 있지만 일반 텍스트는 일반적으로 좋습니다.

그러나 스캔 한 이미지에서 문서를 만드는 경우 일반적으로 텍스트 부분은 이미지의 OCR 처리에 의해 생성되므로 특히 원본이 목적에 적합하지 않은 경우 다소 미안한 결과가 발생할 수 있습니다.

PDF를 작성하는 데 사용 된 잘못된 프로그램 또는 잘못된 설정으로 인해 파일이 작성된 후 일부 종류의 암호화가 파일에서 실행될 수 있으므로 텍스트 부분이 완전히 왜곡 될 수 있습니다.

결론은 문서의 텍스트 부분이 실제로 나쁘면 더 나아질 방법이 없다는 것입니다. 가장 좋은 방법은 텍스트 부분을 모두 제거하고 프로그램이 OCR 프로세스를 다시 실행하도록하는 것입니다. Acrobat에서 가능하다고 생각하지만 확실하지는 않습니다.


1

PDF에 글꼴을 포함하는 것이 PDF에서 텍스트를 복사 할 때 올바르게 적용되지 않는 사용자 지정 인코딩을 사용했기 때문일 수 있습니다.

다른 방법을 적용하여 모든 내용을 수동으로 입력하지 않아도됩니다.

  1. 인터넷을 통해 다운로드 할 수있는 'pdftotext.exe'도구 중 하나를 사용하여 텍스트를 추출하려고 했습니까? ( ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl4-win32.zip에 포함 된 것을 권장합니다 ).
  2. 최신 버전의 Acrobat Reader에는 "텍스트로 저장 ..." 옵션이 있습니다. 이것은 "copy'n'paste"를 사용하지 않지만 (텍스트가 잘못 표시됨) 화면에 텍스트 를 렌더링 하는 데 사용 된 것과 동일한 소프트웨어 루틴을 사용 하므로 더 유용한 결과를 얻을 수 있습니다.
  3. '2'인 경우 작동하지 않으며 Acrobat Professional에 액세스 할 수있는 경우 : 글꼴이 포함 된 Distiller 프로필 중 하나를 사용하여 PDF를 다시 증류하십시오.
  4. '3'인 경우 Acrobat Professional에 액세스 할 수 있음에도 불구하고 작동하지 않습니다. PDF를 다시 증류 해보십시오. 그러나 이번에는 '이미지로 인쇄'옵션을 사용해야합니다 (기본 인쇄의 왼쪽 하단에있는 '고급'단추를 통해 사용 가능). 대화). 600dpi를 사용해야합니다 (큰 파일을 생성 할 수 있음). 그런 다음 결과 PDF를 Acrobat Pro에서 다시 엽니 다. 이제 Acrobat의 'OCR'알고리즘을 파일에 적용하면 포함 된 텍스트 (Reader에서 화면 렌더링에 사용되지 않지만 문자열 검색 및 강조 표시에 사용됨)가 생성됩니다. 이제 위에서 설명한 방법 중 하나를 사용하여이 PDF에서 텍스트를 다시 추출 할 수 있습니다.

나에게있어 Acrobat Pro XI 를 사용하여 PDF로 재 인쇄하지만 인쇄 ... 대화 상자 의 고급 ... 버튼 / 하위 대화 상자에서 "이미지로 인쇄" (600dpi)를 선택한 상태 에서 속임수를 사용했습니다. 그런 다음 결과를 올바르게 OCR 할 수 있습니다 . 이 페이지에서 언급 한 다른 솔루션은 작동하지 않았습니다. 참고 : 큰 문서의 경우 시간이 오래 걸리고 결과 PDF가 상당히 클 수 있습니다.
Glenn Slayden

@ GlennSlayden : 내 조언이 당신을 위해 일하게되어 기쁘다 ... 당신이 여전히 공의를받을 자격이 없다고 생각한 것이 무엇입니까?
Kurt Pfeifle

음, 공감했습니다. 여전히 '1'로 표시됩니다. 내 유일한 불만은 당신의 대답은 하단에이었다이었다 그리고 그것을 찾기 위해 나에게 (다른 잘못 ...) 렸어요
글렌 Slayden

좋아, @GlennSlayden, 그렇다면 그 upvote는 이미 풀렸을 것입니다 (위의 의견이 있기 오래 전).
Kurt Pfeifle

아니요, "12 시간 전"에 의견을 쓰면서 동시에 투표했습니다. 여전히 파란색 화살표가 보입니다. 내 화살표는 현재 등록 된 (투표) 투표입니다. 그리고 지난 밤에 투표하기 전에 '0'이었다는 것을 기억합니다.
Glenn Slayden

1

내 사용자 중 한 명이 방금 동일한 텍스트 (PDF는 Distiller for Windows로 작성 됨)를보고했는데, 복사 된 텍스트는 텍스트 만 깨져서 문서 내에서 검색 할 수 없었습니다. Mac에서 시도했지만 문제가 없습니다. Apple의 Preview 응용 프로그램을 사용하고 Windows 컴퓨터에서 Adobe Reader를 사용하는 것으로 나타났습니다. 그런 다음 Mac에서 Adobe Reader를 사용해 보았을 때도 같은 효과가 나타났습니다. 나에게 그것은 다음과 같습니다

  • 저장된 텍스트를 Adobe Reader에서 복사하여 검색하고 있습니다.

  • Apple의 Preview는 인코딩 벡터를 적용한 후 복사 및 검색합니다.

나는 이것을 확실히 말할 수는 없지만 내 관찰을 설명 할 것입니다. 그리고 다른 게시물에 설명 된 것처럼 결합 / 축소 파일을 저장할 때 모든 종류의 인코딩을 실제로 허용 할 수 있습니다. 미리보기를 사용하면 여전히 텍스트를 다시 가져올 수 있습니다.

먼저 포함 된 글꼴 하위 세트를 구멍을 남기고 원래 문자 위치를 사용하는 대신 연속 항목으로 인코딩하는 것이 더 논리적이라고 생각했습니다. 그러나 원래 항목이있는 글꼴 하위 집합에 인코딩 벡터를 사용하면 자주 사용되는 문자가 바이트에서 1로 설정된 비트 수가 적고 더 나은 방식으로 압축 될 수 있음을 알았습니다. 이 방법으로 전체 텍스트).


1

Google 문서에 업로드하고 보기> 일반 HTML 옵션을 사용하면 약간의 공백이 없어도 복사 가능한 텍스트가 약 80 % 정도됩니다.

와 스레드 허용 대답같은 문제는 작업 예제와 함께이 문제를 설명합니다.


1

Google 문서 도구 옵션은 아직 사무실에서 지원되지 않으므로 시도하지 않았습니다. 그러나 파일을 "ScanSoft PDF Create!"로 인쇄하면 "Acrobat 9"(전체 파일을 이미지로 인쇄) 및 "Nuance PDF Converter"에서 인쇄 된 파일 열기 (이미지 파일을 검색 및 편집 가능하도록 선택했는지 묻는 메시지가 표시됨)에서 쉽게 복사하여 붙여 넣을 수있는 Word 문서가 있습니다. 약 80-90 % 정도의 정확도로 완벽하지는 않습니다. 그러나 여전히 수정이 불가능한 부분과 비교하고 오프셋 할 원본 PDF 파일이 있습니다. 전체 내용을 입력하여 시간을 절약합니다. 내 2c.


0

Windows XP 용 이전 버전의 Scansoft PDF Converter를 사용하여 편집 가능한 텍스트 PDF를 만든 다음 Mac의 미리보기 프로그램에서 페이지를 결합했습니다. 별도의 각 페이지마다 Mac의 Adobe Reader에서 텍스트를 올바르게 검색, 복사 및 내보낼 수있었습니다. 미리보기로 결합하여 하나의 파일로 저장하면 모두 화면에서 잘 보이지만 몇 구절 만 검색 / 내보낼 수 있습니다. 그 문제는 나를 여기로 데려왔다.

여기의 게시물은 나에게 좋은 포인터를주었습니다 (감사합니다!). 글꼴의 파일 속성을 살펴 보았습니다. Win XP (모두 잘있는 곳)의 단일 페이지 파일은 인코딩이 ANSI라고 말했습니다. 미리보기 (복사 된 텍스트가 깨지는 위치)에서 결합 된 파일은 대부분의 글꼴에 대해 "내장"으로 인코딩되었으며 일부는 "로마"로 인코딩되었습니다.

Scansoft 프로그램 자체는 파일을 결합 할 수 있습니다. Scansoft의 결합기를 사용하고 Mac에서 파일을 열면 모든 글꼴이 ANSI 인코딩으로 표시되고 모든 텍스트가 완벽하게 내보내거나 복사되었습니다. 왜 지구상에서 처음에 PDF 변환기에 그것들을 결합시키지 않았습니까? 고마워 포스터!

Linux 시스템에서 파일을 여는 것도 마찬가지입니다.

PDF가 비슷한 혼합 출처를 가지지 않는 한 이것이 Windows 전용 문제를 설명하지 못한다는 것을 알고 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.