서식을 유지하면서 PDF에서 텍스트를 복사하는 방법은 무엇입니까?


41

PDF 파일에서 텍스트 편집기로 텍스트를 복사하면 다양한 방식으로 엉망이됩니다. 굵은 이탤릭체와 같은 서식은 손실됩니다. 텍스트 단락 내의 부드러운 줄 바꿈은 하드 줄 바꿈으로 변환됩니다. 두 줄을 넘어서 단어를 나누기위한 대시 (-)는 없어야 할 때에도 유지됩니다. 작은 따옴표와 큰 따옴표는?로 대체됩니다. 표지판.

이상적으로는 PDF에서 텍스트를 복사하고 서식을 HTML 코드로 변환하고 "스마트 따옴표"를 "및 '로 변환하고 줄 바꿈을 올바르게 수행하고 싶습니다.이 방법이 있습니까?


2
Word 2013은 PDF를 열 수 있습니다. 완벽하지 않습니다. 그러나 가능
pratnala

답변:


54

먼저, PDF가 무엇인지 이해해야합니다. PDF는 인쇄 된 페이지를 모방하도록 설계되었으며 입력 형식이 아닌 출력 형식으로 설계되었습니다 . PDF는 기본적으로 문자 (개별 문자 또는 문장 부호 등) 또는 이미지의 정확한 위치를 포함하는 맵입니다. 대부분의 경우 PDF는 한 단어가 끝나고 다른 단어 가 시작 되는 위치에 대한 정보조차 저장하지 않습니다 .

(최근의 일부 PDF에는이 내용에 대한 일부 정보가 저장되어 있지만 이는 새로운 기술이므로 PDF를 찾는 것이 운이 좋을 것입니다. 그래도 PDF 뷰어에 대해서는 알지 못할 수 있습니다.)

어쨌든, 개별 문자의 위치에서 단어, 단락 등을 추출하기 위해 일종의 "인공 지능"을 구현하는 것은 소프트웨어에 달려 있습니다. 다른 소프트웨어가 다른 소프트웨어보다이 작업을 더 잘 수행 할 수 있으며 PDF 작성 방법에 따라 달라집니다. 어떤 경우에는, 당신이해야 결코 완벽한 결과를 기대하지 않습니다. 출력 PDF를 갖는 것은 소스 문서를 갖는 것과 다릅니다. 가능하다면 그것을 얻으려고 노력하는 것이 훨씬 좋습니다.

귀하의 문제에 대한 표준 솔루션은 Adobe Acrobat Professional (무료 리더가 아닌 값 비싼 것)을 사용하여 PDF를 HTML로 변환하는 것입니다. 그럼에도 불구하고 완벽한 결과를 얻지 못할 것입니다.

일부 서식은 그대로 유지하면서 PDF에서 텍스트를 추출하는 데 사용할 수있는 무료 소프트웨어가 있지만 완벽한 결과를 기대하지는 않습니다. 예를 들어 구경 (RTF 형식으로 변환 할 수 있음), pdftohtml / pdfreflow 또는 AbiWord 워드 프로세서 (모든 가져 오기 / 내보내기 플러그인 사용)를 참조하십시오. OpenOffice 용 PDF 가져 오기 플러그인도 있습니다.

그러나 이러한 결과로 완벽을 기대하지 마십시오. 당신은 여기 곡물에 반대합니다. PDF는 편집 가능한 입력 형식을 의미하지 않습니다.


2
5 년 후의 피드백 : 크게 개선되지 않음 : HTML (acrobat x 사용)로 변환 한 다음 각 행을 MSword 테이블에 삽입해야했습니다. (단어 또는 엑셀 또는 txt를 저장하면 모든 것을 엉망으로 만들었습니다. 크롬에서 과거 복사는 전혀 작동하지 않았습니다). 여전히 (매우) 스마트 소프트웨어를 기다리고 있습니다.
JinSnow

위에서 언급 한 제한, 너무 일을 "서식 복사"를 선택 테이블에 마우스 오른쪽 버튼으로 클릭
JinSnow

1
이것이 대답으로 받아 들여지기 때문에 pratnala가 자신의 의견에 쓴 (최신) 옵션에 대해서도 언급하는 것이 좋습니다. Word 2013에서 직접 PDF를 엽니 다. 일부 PDF에서는 위의 모든 소프트웨어보다 더 나은 결과를 얻었습니다.
BornToCode

8

또 다른 옵션은 무료 PDF 뷰어 인 Foxit (좋은)을 다운로드하여 사용하는 것입니다. 그런 다음 '다른 이름으로 저장'을 선택하고 .txt를 선택하여 텍스트 파일로 변환하십시오. 모든 서식이 유지됩니다. Foxit으로 변환 할 때 얼마 전에 사용을 중단했기 때문에 Adobe에서 동일한 작업을 수행 할 수 있는지 여부는 없습니다.


"다른 이름으로 저장 ... 텍스트"는 여러 무료 pdf 뷰어와 함께 나를 위해 일했습니다.
Jeff

Foxit을 사용하고 방금 시도했지만 형식이 보존되었다고 말하지는 않습니다. 그리고 내가 원하는 것은 괜찮은 줄 끝과 각 단락을 단락으로했습니다.
pgr

txt를 사용하면 글꼴, 굵은 체, 이탤릭체, 색상 및 고급 옵션 등 모든 형식을 잃게됩니다.
skan

폭스 잇 리더는 나를 위해 큰 일
마이클 Tranchida에게

5

Sej-da 라는 매우 좋은 온라인 도구가 있습니다. 고급 PDF 조작을 다룹니다. 다운로드 할 소프트웨어가 없습니다. 그것이이기 때문에 새로운 온라인 도구는 현재 베타 아직도있다. PDF에서 텍스트를 추출 할 수있을뿐만 아니라 다양한 PDF 기능을 제공 할 수 있습니다.

http://www.sejda.com/

sejda 기능에 대한 간단한 비디오 검토는 2012 년 11 월 14 일 개정 3에 의해 수행되었습니다.

http://revision3.com/tzdaily/sejda-online-pdf


1
하나는 여전히 명령 행 도구를 다운로드 : sejda.org/download를 (나는 그것을 할 수 있다고 생각하지 않는 텍스트를 추출하는 포맷으로?)
Arjan

이미 Arjan 위 Sejda 추천 한
사이먼

1
응? 나는 단지 의미했다 : 당신은 그것이 온라인 도구라고 말하고 있지만, 같은 것을 다운로드 할 수도 있습니다. 또한 더 자세히 살펴보면 요청한 것처럼 서식이 유지되지 않을 것이라고 생각합니까?
Arjan December

형식 보존이 요청되었음을 잘 알고 있지만 시도하지 않으면 알 수 없습니다.
Simon

풍부한 기능을 갖춘 무료 도구이며 베타 버전이 아니더라도 잃을 것이 없지만 시도해보십시오. 시간이 지남에 따라 기능 세트가 확장 될 수 있지만 현재로서는 실제로 불평 할 수 없습니다.
Simon

5

브라우저로 PDF 파일을 열고 (Google 크롬 및 파이어 폭스 테스트) 텍스트를 복사하십시오.


슬프게도 이것은 Firefox에서 작동하지 않았습니다.
Reb

닫기. FF는 최소한 글꼴 크기를 유지했습니다. 줄 바꿈조차도 비참하게 실패했습니다.
nd34567s32e

2019 년 10 월 현재 Chrome에서 PDF를 열고 텍스트 편집기로 복사 / 붙여 넣기를 수행하면 최소한 줄 끝이 유지됩니다 (그러나 슬프게도 줄의 앞 공백이 아님).
DocOc

4

이를 위해 Adobe Acrobat Pro를 사용할 수 있습니다.

표 : Acrobat 9/10에는 표 선택 기능이있었습니다. Acrobat X에서는 다른 이름으로 저장> 스프레드 시트> Excel을 클릭하면됩니다. 심지어 페이지를 하나의 긴 스프레드 시트로 연결합니다. 멋진 기능.

텍스트 : MS Word로 내보내는 데 유사한 기능이 있습니다. 다른 이름으로 저장> Word> Word Doc.

출처 :


0

Foxit은 Ctrl + 6을 눌러 원본 파일을 일반 PDF로 표시하거나 텍스트로 표시하도록 전환합니다 (텍스트 모드의 확대 / 축소 수준을 약간 조정하면 읽기와 복사 사이에 앞뒤로 크게 이동하지 않습니다)


0

나는 이것이 매우 유용하다는 것을 알았다 ( Remove Line Breaks ) :

다음은 모든 줄 바꿈을 수동으로 제거하지 않고도이 문제를 빠르게 해결하는 유용한 방법입니다. 기본적으로 모든 불필요한 줄 바꿈을 단일 공백으로 자동 대체하여 모든 텍스트를 단일 단락으로 실행합니다.

1- PDF에서 원하는 텍스트를 복사하십시오.

2- 새 Word 문서에 붙여 넣습니다.

3- "편집"을 클릭 한 다음 "바꾸기"를 클릭하십시오.

4- "찾을 내용"필드에 있는지 확인하십시오

5- "더보기"를 클릭 한 다음 "특별"을 클릭하십시오.

6-“문단 표시”(목록 상단)를 선택하십시오

7- "바꾸기"필드를 클릭하십시오

8- 스페이스 바를 한 번 누르십시오

9-“모두 바꾸기”를 클릭하십시오

10- "확인"을 클릭 한 다음 "찾기 및 바꾸기"상자를 닫습니다.


-1

Adobe Reader에서 MS Excel로 복사하고 원하는 방식으로 서식을 지정한 다음 Excel에서 복사하여 붙여 넣을 수 있습니다. 이 솔루션은 훌륭하게 작동합니다. 비싼 어도비 프로페셔널 카피를 구입할 필요가 없습니다.


질문은 텍스트에 대해 설명합니다. 이것이 형식화를 HTML 코드로 변환하는 것을 포함하여 텍스트에 대한 일반적인 솔루션이라고 생각하십니까?
fixer1234 5

-1

테이블로 구성된 pdf의 텍스트와 형식을 저장하려고했습니다. Acrobat Professional에는 Excel 문서로 저장할 수있는 '다른 이름으로 저장'옵션이 있다는 것을 깨달았습니다. 이것은 내 요구에 잘 맞았습니다. 또한 Word로 저장 문서 옵션도 있습니다. 나는 그것을 시도하지 않았다.


2
이것은 user156787의 답변을 복제합니다.
fixer1234
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.