웹 페이지의 모양과 텍스트 / 링크를 그대로 유지하여 웹 페이지를 PDF로 변환하는 방법은 무엇입니까?


24

웹 페이지를 PDF로 변환하는 방법을 찾고 있지만 웹 페이지의 모양을 유지합니다. 또한 웹 페이지의 텍스트를 유지 (선택 가능)하고 검색 가능 [웹 페이지의 이미지 스크린 샷을 생성하면 텍스트를 선택하거나 검색 할 수 없게됩니다].

스타일이나 정렬을 조작하거나 웹 페이지의 정적 구성 요소를 잃지 않고 웹 페이지를 그대로 웹 브라우저에서 PDF로 인쇄하려고합니다.

이를 통해 쉽게 읽고 주석을 달고 검색 할 수있는 웹 페이지의 오프라인 복사본을 보존 할 수 있습니다.


내 질문을 얻기 위해 아래 중 하나를 읽을 필요는 없습니다 (질문은 위의 섹션입니다) . 다음 섹션은 질문에 대한 답변을 얻기 위해 연구 또는 다른 사람들의 답변을 중첩 된 방식으로 나열한 것입니다.

연구 결과 (내 문제를 해결하지 못한 제안)

지금까지 해결책을 찾으려고 노력한 결과 (모두 여전히이 질문에 대한 해결책으로 작동하지 않음)

(: 나는 엔진을 인쇄이 PDF 웹을 시도했지만 모두 더하더라도 손상을 일부는 거의 읽을 수있어 페이지 '모양을 조작 예 페이지의 스크린 샷이 대괄호에 포함되어 있습니다)

  • 크롬 [ 원본 , 인쇄 스타일 (사용 안함 | 사용 안함 )]
  • Firefox [ 원본 , 인쇄 스타일 (사용 안함 p1 , p2 | 사용 안함 p1 , p2 )]
  • 가독성
    • 그것은 웹 페이지를 단순화시킵니다 (집중적 인 독서에 좋은 것입니다. 그러나 이것이 내가 찾고있는 것이 아닙니다). 웹 브라우저에서 볼 수있는 모든 웹 페이지의 위치 / 스타일 속성을 아무런 조작없이 PDF 형식으로 유지하려고합니다.
  • Foxit 리더
  • 노바 PDF
  • CutyCapt [ 원본 , 확대 / 축소 비율 : 0.4 : 스크린 샷, 출력 PDF]
    • Windows에서 프로그램의 실행 문제를 해결 한 후 링크를 ​​추가하겠습니다. "
  • wkhtmltopdf [ 원본 , 확대 / 축소 비율 : 0.4 : 스크린 샷 , 출력 PDF ]
    • CSS3을 지원하지 않습니다.

모든 웹 페이지 스크린 샷 이미지 캡처 플러그인 (예 : 납치 , 멋진 스크린 샷 , Fireshot , Firefox 스크린 샷 개발자 도구 , 전체 페이지 화면 캡처 , Page2Images , web-capture ... 등)은 텍스트를 보존 하지 않기 때문에 내 질문에 대답하지 않습니다. 링크 .

Scrible 은 추가 주석 및 연구와 마찬가지로 웹 페이지를 보존하는 데 유용 하지만 불행히도 여전히 온라인 상태이며 PDF 형식으로 변환하지 않습니다.

커뮤니티와 관련하여 두 가지 다른 질문이 있지만 어쨌든이 질문은 약간 다르지만 중요한 차이점이 있습니다.

  • 웹 브라우저에서 WYSIWYP (표시된 내용 인쇄)를 얻는 방법?
    • 이 질문은 웹 페이지가 이미지이고 텍스트가 보존되지 않더라도 화면에 표시된대로 웹 페이지를 캡처하는 방법에 대해 묻습니다. 반면, 나는 텍스트와 링크를 캡처하려고합니다 ( 중요하게 텍스트와 링크를 보존하십시오 ).

텍스트와 링크를 유지할 필요가없는 유사한 질문 (페이지는 대부분 이미지 스크린 샷 으로 캡처 됨 ) :


노트

운영체제 : Windows 10


브라우저에서 인쇄하려면 먼저 웹 페이지의 화면 모양을 유지하기 위해 인쇄 스타일 시트를 비활성화해야합니다.
DavidPostill


그런 다음 CutePDF writer를 사용하여 인쇄 할 수 있습니다 .
DavidPostill

@DavidPostill 인쇄 스타일을 비활성화하면 작동하지 않거나 브라우저가 PDF를 올바르게 표시하는 데 영향을 미치지 않는 것 같습니다. 편집 된 버전의 질문에 스크린 샷 예가 추가되었습니다.
Omar

나는 오늘 같은 질문을
했고이

답변:


7

우리는 대학 프로젝트에서 같은 문제에 직면했고 그것을 사용하여 해결할 수있었습니다.

wkhtmltopdf

우리는 명령 행에서이 도구의 기능을 매우 좋아했습니다. 또한 웹 페이지의 현재 상태를 렌더링하기 위해 파이썬 코드를 사용하여 호출했습니다. 웹 페이지를 pdf로 제공하는 옵션이 있습니다. 일반적으로 페이지 형식으로 인해 웹 사이트보기를 유지하기에 적합하지 않으며 (예 : A4) 또는 png로 (페이지보기는 유지하지만 링크는 유지하지 않음)

우리가 사용한 가독성 (Python : pypi.python.org/pypi/readability-lxml) 프로젝트는 광고 제거 및 콘텐츠 검색을 아주 잘 수행하는 프로젝트 (예 : 신문 기사 등)도 있습니다. 브라우저에 애드온이나 확장 프로그램을 원한다면 다음과 같은 가독성 구현이 필요를 충족시킬 수 있습니다.

https://www.readability.com/addons/


불행히도 wkhtmltopdf는 페이지의 요소 위치를 유지하지 못했습니다. 예 페이지 : 확대 / 축소 비율 : 0.4 : 스크린 샷 , 출력 PDF
Omar

가독성은 페이지를 단순화합니다 (이것은 좋은 것입니다. 그러나 이것이 내가 원하는 것이 아닙니다). 웹 브라우저에서 볼 수있는 모든 페이지 위치 / 스타일 속성을 아무런 조작없이 PDF 형식으로 유지해야합니다.
Omar

도구의 wkhtmltopng 옵션을 png로 사용 했습니까? png 위치는 괜찮을 것입니다 (적어도 페이지가 A4 형식에 맞는 pdf 버전보다 훨씬 낫습니다)
sebisnow

3

가능한 사용자를위한 다른 답변 제공. Firefox에는 애드온 "PDF로 페이지 인쇄"가있었습니다. 마지막 버전 인 0.1.9.3을 검색 할 수 있습니다 (Quantum 이전 버전에서만 작동).

현재 크롬과 파이어 폭스를위한이 애드온이 있습니다 : PDFMage

  • 모든 이미지를 페이지에 저장
  • 이미지가 아닌 텍스트로 텍스트를 생성하면 생성 된 PDF에서 텍스트를 검색 할 수 있습니다.
  • 프리 서버 하이퍼 링크
  • 긴 웹 페이지를 한 페이지 PDF로 저장하는 옵션이 있습니다 (따라서 이미지가 페이지간에 분할되지 않음)

2

나는 정말로 이것으로 어려움을 겪었고 지금까지 언급 된 대부분의 도구를 사용해 보았습니다. 내가 얻은 최고의 결과는 Chrome의 헤드리스 모드를 사용하는 것입니다. MacOS의 명령은 다음과 같습니다.

/Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome --headless --print-to-pdf=test.pdf http://127.0.0.1:8080

내가 찾은 최고의 명령 줄 옵션 목록은 여기에 있습니다 .

그러나 문제가있었습니다. 특히 내 페이지는 자바 스크립트가 무겁고 인쇄 기능이 페이지 실행을 완료 할 때까지 기다릴 수 없었습니다. 그래서 내 출력에는 이미지가 없었습니다.

내가 찾은 솔루션은 nodeJS 패키지였습니다 chrome-headless-render-pdf. 그것의 부족한 문서는 여기 . 작동하며 쉽게 스크립팅 할 수 있습니다.


2

나는 같은 문제가 있었고 Chrome을 통해 PDF995라는 무료 프린터 드라이버로 알아 냈습니다. 이것은 PDF 유틸리티 제품군의 일부입니다. 게시자의 웹 사이트는 http://www.pdf995.com/ 입니다.

그러나 모든 웹 브라우저와 pdf 변환기로 충분하다고 생각합니다. 어쨌든, 여기 내가 한 일이 있습니다.

  1. 모두 선택하거나 모든 것을 강조 표시하십시오.
  2. 강조 표시된 선택 항목을 마우스 오른쪽 단추로 클릭하거나 Ctrl + P를 누릅니다 (두 옵션 모두 약간 다른 결과를 제공하지만 완료 후 동일한 결과가 나타납니다).

  3. 2.에서 마우스 오른쪽 버튼을 클릭 한 경우 선택 (바로 가기), "인쇄"를 클릭하면 선택한 모든 항목 만 인쇄 미리보기에 표시됩니다. 사용하려는 PDF 변환기 (PDF995 또는 기타)로 프린터 대상을 변경해야합니다.

  4. "인쇄"를 클릭하면 PDF 문서로 저장됩니다.

  5. 대신 2에서 약간 더 긴 방법으로 Ctrl + P를 누른 경우 "추가 설정"을 클릭하고 "옵션"으로 아래로 스크롤하십시오.

  6. "선택 만"이라고 표시된 상자를 클릭하면 위에서 설명한 바로 가기의 모든 내용이 표시됩니다.

  7. 선택한 PDF 변환기 (PDF995 또는 기타)로 프린터 대상을 변경하는 것을 잊지 마십시오.

  8. "인쇄"를 클릭하십시오.



0

PDF가 아닌 정확한 요청은 아니지만 나중에 검토하기 위해 웹 페이지의 오프라인 사본을 유지하는 것이 목적이라면 웹 페이지로 저장하면됩니다.

큰 경고는 단일 문서가 아닌 페이지에 모든 미디어 컨텐츠가 포함 된 .html 파일과 폴더를 작성한다는 것입니다.

Chrome 및 Firefox에서는 페이지를 마우스 오른쪽 단추로 클릭하고 다른 이름으로 저장 ...을 선택하여 페이지를 저장할 수 있습니다. Internet Explorer에서 파일-> 다른 이름으로 저장 (메뉴가 표시되도록 Alt 키를 누름) 아래에 페이지를 저장할 수 있습니다.


웹 페이지를 .html 형식으로 저장하면 주석을 달 수 없습니다. 따라서 PDF 형식으로 필요합니다.
Omar

그건 좋은 지적이야! 인쇄 관련 스타일 시트를 쉽게 비활성화 할 수있는 확장명을 기억했습니다. 빠른 Google 검색으로 수퍼 유저에서 처음 들었을 때 토론을하게 되었습니다. 웹 브라우저에서 WYSIWYP를 얻는 방법은 무엇입니까?
Pyheme

Chrome을 사용하여 '다른 이름으로 저장'을 시도했습니다. .HTML 파일과 폴더를 만듭니다. .HTLM 파일에 페이지에서 많은 부분이 누락되었습니다.
SherlockSpreadsheets

0

이 서비스를 사용해보십시오. 브라우저에 표시된대로 웹 사이트에서 PDF를 만듭니다. https://lomotoh.com/ (이 사이트와 제휴 관계에 있습니다)


이렇게하면 링크가 유지되지만 선택 가능한 텍스트는 유지되지 않으므로 질문에서 필수입니다.
fixer1234

일부 사이트에서는 선택할 수있는 것 같습니다. 사이트에서 사용하는 사용자 정의 글꼴의 종류에 따라 다릅니다.
David Herse

0

일부 페이지의 텍스트는 모두 검색 가능, 선택 가능, 잘라 내기 및 붙여 넣기가 가능합니다. 나는 텍스트와 pix로 컴퓨터에 의해 로봇 방식으로 붙여진 페이지를 시험해 보았고 이미지로 모두 조정했습니다.

나는이 것들을 몇 년 동안 사용해왔다. 선택한 XX 단어로 페이지를 재구성하고 결과를 PDF로 내 보내면 Linux에서 최상의 결과를 얻을 수 있습니다. 상당한 비용으로 원하는 것을 얻을 수 있습니다. 이 사이트 ivin 내 사용이 제한 아치에서 데이비드 Herse는 올려 https://lomotoh.com/을 (내가 NOT 이 사이트에 가입) 내가 사용하고있는만큼 잘 작동합니다. 나는 내가 더 좋아질 때까지 또는 웹 페이지를 PDF로 다루기 위해 자원을 사용할 것입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.