wget을 사용하여 웹 사이트에서 HTML이 아닌 모든 파일을 다운로드하는 방법은 무엇입니까?

162

wget웹 사이트에서 모든 파일 을 사용 하고 얻는 방법 ?

HTML, PHP, ASP 등과 같은 웹 페이지 파일을 제외한 모든 파일이 필요합니다.

ubuntu download wget

— 아니 루트 신
소스

PHP를 다운로드하려는 경우에도 wget을 사용할 수 없습니다. wget을 사용하여 원시 HTML 만 얻을 수 있습니다. 당신이 이유를 알 것 같아요

— Venkateshwaran Selvaraj

NB : 항상 확인 wget --spider추가 항상 먼저, 그리고 -w 1(이상 -w 5당신이 다른 사람의 서버를 범람하지 않도록).

— 동 형사상

1

이 페이지에서 모든 pdf 파일을 어떻게 다운로드 할 수 있습니까? pualib.com/collection/pua-titles-a.html

스택 오버플로는 프로그래밍 및 개발 질문을위한 사이트입니다. 이 질문은 프로그래밍이나 개발에 관한 것이 아니기 때문에 주제가 아닌 것 같습니다. 참조 내가 여기에 대해 요청할 수 있습니다 어떤 주제 도움말 센터에서. 아마도 Super User 또는 Unix & Linux Stack Exchange 가 더 좋은 곳일 것입니다. 또한 Dev Ops에 대한 질문을 어디에 게시합니까?를

— jww

262

특정 파일 확장자를 필터링하려면

wget -A pdf,jpg -m -p -E -k -K -np http://site/path/

또는 긴 옵션 이름을 선호하는 경우 :

wget --accept pdf,jpg --mirror --page-requisites --adjust-extension --convert-links --backup-converted --no-parent http://site/path/

사이트가 미러링되지만 확장자가 jpg없거나 pdf확장자가 없는 파일 은 자동으로 제거됩니다.

— 졸트 보티 카이
소스

17

전체 디렉토리 아키텍처없이 파일을 다운로드하려는 경우 -nd 옵션을 사용할 수 있습니다 .

— diabloneo

4

각 플래그는 무엇을 의미합니까?

— Jürgen Paul

--accept대소 문자를 구분 한다고 생각합니다.--accept pdf,jpg,PDF,JPG

— Flimm

8

이것이 새 버전인지 아닌지 확실하지 wget않지만 --progress유형 을 지정해야합니다.--progress=dot

— jamis

@Flimm --ignore-case플래그를 사용하여 --accept대소 문자를 구분하지 않을 수도 있습니다 .

— Harsh

84

이것은 나를 위해 전체 웹 사이트를 다운로드했습니다 .

wget --no-clobber --convert-links --random-wait -r -p -E -e robots=off -U mozilla http://site/path/

— 이질 로티
소스

20

+1 -e robots=off! 마침내 내 문제가 해결되었습니다! :) 감사합니다

— NHDaly

12

--random-wait옵션은 천재)

— poitroae

2

@izilotti 사이트 소유자가이 방법으로 사이트 파일을 WGET하는지 확인할 수 있습니까?

— Elias7

1

@whatIsperfect 확실히 가능합니다.

— Jack

1

@JackNicholsonn 사이트 소유자는 어떻게 알 수 있습니까? 사용 된 에이전트는 Mozilla였습니다. 즉, 모든 헤더가 Mozilla 브라우저로 들어가므로 사용 된 wget을 감지 할 수 없습니까? 내가 틀렸다면 정정하십시오. 감사합니다

— KhoPhi

63

wget -m -p -E -k -K -np http://site/path/

맨 페이지에서 해당 옵션의 기능을 알려줍니다.

wget색인 페이지에서 파일에 대한 링크가없는 경우 링크 만 따르고 파일 wget의 존재에 대해 알지 못하므로 다운로드하지 않습니다. 즉. 모든 파일이 웹 페이지 또는 디렉토리 색인에 링크되어 있으면 도움이됩니다.

— 제시
소스

답장 주셔서 감사합니다 :) 그것은 전체 사이트를 복사하고 나는 웹 사이트에 파일 (즉, txt, pdf, 이미지 등) 만 필요합니다

— Aniruddhsinh

25

Omeka의 테마 페이지 에서 링크 된 zip 파일을 다운로드하려고했습니다 . 이것은 나를 위해 일했다 :

wget -A zip -r -l 1 -nd http://omeka.org/add-ons/themes/

-A: zip 파일 만 허용
-r: 재귀
-l 1: 한 수준 깊이 (예 :이 페이지에서 직접 연결된 파일 만)
-nd: 디렉토리 구조를 만들지 말고 모든 파일을이 디렉토리로 다운로드하십시오.

모든 답변 -k, -K, -E옵션은 아마 정말, 로컬 구조를 만들기 위해 HTML 페이지를 다시 작성 이름 변경과 같은 것과 같은 질문을 이해하지 않은 등의 .php파일을 등등. 관련이 없습니다.

말 그대로 등을 제외한 모든 파일을 가져 오려면 .html:

wget -R html,htm,php,asp,jsp,js,py,css -r -l 1 -nd http://yoursite.com

— 스티브 베넷
소스

2

-A대 / 소문자를 구분하므로 생각해야합니다.-A zip,ZIP

— Flimm

7

시도해 볼 수 있습니다 :

wget --user-agent=Mozilla --content-disposition --mirror --convert-links -E -K -p http://example.com/

또한 다음을 추가 할 수 있습니다.

-A pdf,ps,djvu,tex,doc,docx,xls,xlsx,gz,ppt,mp4,avi,zip,rar

특정 확장명을 수락하거나 특정 확장명 만 거부하려면

-R html,htm,asp,php

또는 특정 영역을 제외하려면 :

-X "search*,forum*"

로봇 (예 : 검색 엔진)에서 파일이 무시되는 경우 다음을 추가해야합니다. -e robots=off

— 케 노브
소스

5

이 시도. 그것은 항상 나를 위해 작동

wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL

— 수 네엘 쿠마르
소스

5

wget -m -A * -pk -e robots=off www.mysite.com/

이것은 모든 유형의 파일을 로컬로 다운로드하고 html 파일에서 가리켜 로봇 파일을 무시합니다.

— 압달라 모하메드 알리 이브라힘
소스

2

Windows 시스템에서 wget을 얻기 위해

Cygwin 다운로드
GnuWin32 다운로드

— 에 빈스
소스