Wget을 사용하여 모든 폴더, 하위 폴더 및 파일 다운로드


21

Wget을 사용하고 있으며 문제가 발생했습니다. 사이트 내에 여러 폴더와 하위 폴더가있는 사이트가 있습니다. 각 폴더와 하위 폴더 내의 모든 내용을 다운로드해야합니다. Wget을 사용하여 여러 가지 방법을 시도했으며 완료를 확인할 때 폴더에서 볼 수있는 모든 것은 "인덱스"파일입니다. 색인 파일을 클릭하면 파일로 이동하지만 실제 파일이 필요합니다.

누구든지 내가 간과 한 Wget 명령을 가지고 있습니까? 아니면이 정보를 모두 얻는 데 사용할 수있는 다른 프로그램이 있습니까?

사이트 예 :

www.mysite.com/Pictures/ Pictures DIr에는 여러 개의 폴더가 있습니다 .....

www.mysite.com/Pictures/Accounting/

www.mysite.com/Pictures/Managers/ 북아메리카 / 캘리포니아 /JoeUser.jpg

모든 파일, 폴더 등이 필요합니다 ...


1
재귀 적으로 사용하기wget 위한 설명서를 읽었 습니까?
Moses

여기 문서의 관련 기사가 있습니다 .
Moses

답변:


38

나는 당신이 이것을 시도하지 않았다고 가정하고 싶다 :

wget -r --no-parent http://www.mysite.com/Pictures/

또는 "index.html"파일을 다운로드하지 않고 내용을 검색하려면 :

wget -r --no-parent --reject "index.html *"http://www.mysite.com/Pictures/

참조 : wget을 사용하여 임의의 파일이있는 디렉토리를 재귀 적으로 가져 오기


1
고마워, 나는 그 명령을 여러 번 실행했지만 명령이 끝까지 끝나지 않도록했습니다. 측면을 추적하여 명령을 실제로 끝내고 모든 폴더를 먼저 복사 한 다음 모든 파일을 폴더로 복사했습니다.
Horrid Henry

만약 내가 인내심을 가지고 있다면 2 주 전에이 일을했을 것입니다 ... LOL. :) 다시 감사합니다.
Horrid Henry

@Horrid Henry, 축하합니다!
Felix Imafidon

비슷한 명령을 사용하지만 index.html 파일 만 가져옵니다!
shenkwen 2016 년

20

나는 사용한다 wget -rkpN -e robots=off http://www.example.com/

-r 재귀 적으로 의미

-k링크 변환을 의미합니다. 따라서 웹 페이지의 링크는 example.com/bla 대신 로컬 호스트입니다.

-p 모든 웹 페이지 리소스를 가져 와서 이미지 및 자바 스크립트 파일을 가져와 웹 사이트가 제대로 작동해야 함을 의미합니다.

-N 로컬 파일이 원격 웹 사이트의 파일보다 최신 인 경우 타임 스탬프를 검색하여 건너 뜁니다.

-erobots=off작동 하려면 플래그 옵션이 있어야합니다 .

robots=off 로봇 파일 무시를 의미합니다.

또한 -c이 명령을 사용했기 때문에 명령을 다시 실행할 때 중단 된 부분에서 계속 연결이 끊어지면 연결이 끊어졌습니다. 나는 -N잘 어울릴 것이라고 생각 했다-c


이 매개 변수 설정의 기능을 설명하기 위해 답변에 몇 문장을 추가 할 수 있습니까?
fixer1234

죄송합니다. 확실히 지금 추가하십시오
Tim Jonas

나는 내 대답을 업데이트 한
팀 조나스에게

감사. 따라서 -c가 명령 예제의 일부이거나 불완전한 다운로드 후에 선택적으로 추가되어야합니까? 또한 -e는 명령이 .wgetrc에있을 수있는 것보다 우선합니다. 그리고 -r에 대한 오타입니까?
fixer1234

네 맞습니다. 예. -e명령이 .wgetrc의 일부 인 것처럼 명령을 실행 robots=off합니다.
Tim Jonas

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.