wget
웹 사이트에서 모든 파일 을 사용 하고 얻는 방법 ?
HTML, PHP, ASP 등과 같은 웹 페이지 파일을 제외한 모든 파일이 필요합니다.
wget --spider
추가 항상 먼저, 그리고 -w 1
(이상 -w 5
당신이 다른 사람의 서버를 범람하지 않도록).
wget
웹 사이트에서 모든 파일 을 사용 하고 얻는 방법 ?
HTML, PHP, ASP 등과 같은 웹 페이지 파일을 제외한 모든 파일이 필요합니다.
wget --spider
추가 항상 먼저, 그리고 -w 1
(이상 -w 5
당신이 다른 사람의 서버를 범람하지 않도록).
답변:
특정 파일 확장자를 필터링하려면
wget -A pdf,jpg -m -p -E -k -K -np http://site/path/
또는 긴 옵션 이름을 선호하는 경우 :
wget --accept pdf,jpg --mirror --page-requisites --adjust-extension --convert-links --backup-converted --no-parent http://site/path/
사이트가 미러링되지만 확장자가 jpg
없거나 pdf
확장자가 없는 파일 은 자동으로 제거됩니다.
--accept
대소 문자를 구분 한다고 생각합니다.--accept pdf,jpg,PDF,JPG
wget
않지만 --progress
유형 을 지정해야합니다.--progress=dot
--ignore-case
플래그를 사용하여 --accept
대소 문자를 구분하지 않을 수도 있습니다 .
이것은 나를 위해 전체 웹 사이트를 다운로드했습니다 .
wget --no-clobber --convert-links --random-wait -r -p -E -e robots=off -U mozilla http://site/path/
-e robots=off
! 마침내 내 문제가 해결되었습니다! :) 감사합니다
--random-wait
옵션은 천재)
wget -m -p -E -k -K -np http://site/path/
맨 페이지에서 해당 옵션의 기능을 알려줍니다.
wget
색인 페이지에서 파일에 대한 링크가없는 경우 링크 만 따르고 파일 wget
의 존재에 대해 알지 못하므로 다운로드하지 않습니다. 즉. 모든 파일이 웹 페이지 또는 디렉토리 색인에 링크되어 있으면 도움이됩니다.
Omeka의 테마 페이지 에서 링크 된 zip 파일을 다운로드하려고했습니다 . 이것은 나를 위해 일했다 :
wget -A zip -r -l 1 -nd http://omeka.org/add-ons/themes/
-A
: zip 파일 만 허용-r
: 재귀-l 1
: 한 수준 깊이 (예 :이 페이지에서 직접 연결된 파일 만)-nd
: 디렉토리 구조를 만들지 말고 모든 파일을이 디렉토리로 다운로드하십시오.모든 답변 -k
, -K
, -E
옵션은 아마 정말, 로컬 구조를 만들기 위해 HTML 페이지를 다시 작성 이름 변경과 같은 것과 같은 질문을 이해하지 않은 등의 .php
파일을 등등. 관련이 없습니다.
말 그대로 등을 제외한 모든 파일을 가져 오려면 .html
:
wget -R html,htm,php,asp,jsp,js,py,css -r -l 1 -nd http://yoursite.com
-A
대 / 소문자를 구분하므로 생각해야합니다.-A zip,ZIP
시도해 볼 수 있습니다 :
wget --user-agent=Mozilla --content-disposition --mirror --convert-links -E -K -p http://example.com/
또한 다음을 추가 할 수 있습니다.
-A pdf,ps,djvu,tex,doc,docx,xls,xlsx,gz,ppt,mp4,avi,zip,rar
특정 확장명을 수락하거나 특정 확장명 만 거부하려면
-R html,htm,asp,php
또는 특정 영역을 제외하려면 :
-X "search*,forum*"
로봇 (예 : 검색 엔진)에서 파일이 무시되는 경우 다음을 추가해야합니다. -e robots=off
wget -m -A * -pk -e robots=off www.mysite.com/
이것은 모든 유형의 파일을 로컬로 다운로드하고 html 파일에서 가리켜 로봇 파일을 무시합니다.