하나에서 연결된 모든 웹 페이지를 저장하는 방법


15

이 웹 페이지 와 링크 된 모든 페이지 를 저장하고 싶습니다 . 저장된 웹 페이지간에 동일한 연결이 이루어 지길 바랍니다.

링크 된 각 페이지를 열고 저장하는 대신 몇 가지 방법이 있습니까?

답변:


12

wget 명령 행 유틸리티를 사용하여 원하는 작업을 수행 할 수 있습니다 . -r옵션 을 제공하면 웹 페이지가 재귀 적으로 다운로드됩니다. 예를 들면 다음과 같습니다.

wget -r http://mat.gsia.cmu.edu/orclass/integer/integer.html

그러면 해당 웹 페이지와 링크 된 모든 것이 다운로드됩니다. 또한 특정 수준의 재귀 만 반복하도록 할 수 있습니다.이를 위해서는 단순히 -r숫자 만 제공하면 됩니다. 이와 같이 :

wget -r 5 http://mat.gsia.cmu.edu/orclass/integer/integer.html

@ 마크 : 감사합니다! 이제 mat.gsia.cmu.edu/orclasswget -r mat.gsia.cmu.edu/orclass 명령을 사용하여 링크 된 페이지 를 다운로드하려고합니다 . wget은 내가 지정한 디렉토리 아래에 mat.gsia.cmu.edu 디렉토리를 생성하고 그 아래에 페이지를 다운로드합니다. 그러나 다운로드 한 페이지 사이의 링크에는 경로에 mat.gsia.cmu.edu가 없으므로 문제가되며 링크를 클릭하여 한 페이지에서 다른 페이지로 이동할 수 없습니다. 왜 그리고 어떻게 문제를 해결해야하는지 궁금했습니다. 감사!
Tim

@Tim과 같은 외부 링크를 재귀 적으로 다운로드 할 수 있다고 생각하지 않습니다.
Wuffers

"외부 링크"는 현재 경로에없는 링크를 의미합니까?
Tim

@Tim : 외부 링크는 mat.gsi.cmu.edu 외부를 참조하는 링크를 의미합니다
Wuffers

1
@ 팀 : 아, 알겠습니다. 오해해서 죄송합니다. HTML 파일을 직접 편집하여 확인하고 시도해 볼 수 있다고 생각합니다.
Wuffers

10

이 글타래는 낡았지만 다른 사람들이 볼 수도 있습니다. Wuffers, 올바른 방향으로 나를 지적 해 주셔서 감사합니다. Wuffers의 답변을 확장하십시오 .wget의 최신 버전에는 링크를 되풀이하고 로컬 상대 링크로 패치하여 로컬 사본을 탐색 할 수있는 유용한 옵션이 많이 있습니다. 웹 사이트 -r 옵션을 사용하여 재귀, -k 옵션을 사용하여 로컬 링크 패치, -H 옵션을 사용하여 원래 도메인 이외의 도메인으로 이동, -D 옵션을 사용하여 통과하는 도메인을 제한, -l 옵션을 사용하여 재귀 수준 및 -p 옵션을 사용하여 순회 잎에 올바르게 표시하는 데 필요한 모든 것이 있는지 확인하십시오. 예를 들어, 다음은 페이지와 페이지가 즉시 연결되는 모든 것을 다운로드하여 로컬에서 볼 수있게합니다.

wget -r -l 1 -p -k -H -D domain.com,relateddomain.com http://domain.com/page/in/domain

위의 명령과 비슷한 명령을 사용하여 외부 링크가있는 위키 페이지 청크를 로컬 디스크에 메가 바이트의 외부 데이터를 다운로드하지 않고 다운로드 할 수있었습니다. 이제 브라우저에서 루트 페이지를 열면 인터넷에 연결하지 않고도 트리를 탐색 할 수 있습니다. 유일한 자극은 루트 페이지가 하위 디렉토리에 묻혀 있고 표시하기 편리하게 최상위 리디렉션 페이지를 만들어야한다는 것입니다. 제대로 이해하려면 약간의 시행 착오가 필요할 수 있습니다. wget 매뉴얼 페이지를 읽고 실험하십시오.


4

httrack 과 같은 웹 사이트 크롤러 를 무료로 사용할 수 있습니다 .

웹 사이트에서;

[httrack]을 사용하면 인터넷에서 로컬 디렉토리로 월드 와이드 웹 사이트를 다운로드하여 모든 디렉토리를 재귀 적으로 구축하고 HTML, 이미지 및 기타 파일을 서버에서 컴퓨터로 가져올 수 있습니다. HTTrack은 원본 사이트의 상대 링크 구조를 정렬합니다. 브라우저에서 "미러링 된"웹 사이트의 페이지를 열기 만하면 마치 온라인에서 보는 것처럼 링크에서 링크로 사이트를 탐색 할 수 있습니다.


1
+1 우수한 응용 프로그램! 그러나 그것은 내가 원하지 않는 모든 링크 된 zip 파일을 가져옵니다. 그러나 아마도 지침을 먼저 읽었을 것입니다!
finlaybob

예, 모든 링크를 따라갈 수 있으므로 파일을 다운로드합니다. (@Finlaybob 프로필에 표시된 홈페이지가 해킹 당했음을 알고 있습니까?)
RJFalconer 2016 년

내가 아니었다! 알아 볼게요-알려 주셔서 감사합니다!
finlaybob
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.