다른 도메인에서 wget 다운로드 페이지 리소스 만들기


16

리소스가 다른 도메인 (도메인 B)에있을 때 wget을 사용하여 전체 사이트 (도메인 A)를 어떻게 다운로드합니까?
난 노력 했어:
wget -r --level=inf -p -k -E --domains=domainA,domainB http://www.domainA


와! 이번에는 아무도 없습니까?
Parsa

명령이 작동하지 않는 이유는 --domains자체적으로 사용하지 않기 때문 --span-hosts입니다. 추가 --span-hosts하면 문제가 해결되었습니다. : |
Parsa

답변:


14
wget --recursive --level=inf --page-requisites --convert-links --html-extension \
     --span-hosts=domainA,domainB url-on-domainA

업데이트 : 위의 명령이 과거에 나를 위해 일한 것을 기억합니다 (2010 년 당시 Windows 용 GNU 도구를 사용하고있었습니다 ). 그러나 오늘 사용하고 싶을 때 다음과 같이 변경해야했습니다.

wget --recursive --level=inf --page-requisites --convert-links \
     --adjust-extension --span-hosts --domains=domainA,domainB domainA

이에 대한 속기는 다음과 같습니다. wget -rEDpkH -l inf domainA,domainB domainA

  • -r = --recursive
  • -l <depth> = --level=<depth>
  • -E = --adjust-extension
  • -p = --page-requisites
  • -K = --backup-converted
  • -k = --convert-links
  • -D <domain-list> = --domain-list=<domain-list>
  • -H = --span-hosts
  • -np = --no-parent
  • -U <agent-string> = --user-agent=<agent-string>

GNU Wget 매뉴얼 : https://www.gnu.org/software/wget/manual/wget.html


wget : --span-hosts : 잘못된 boolean domainA,domainB'; use on '또는`off'. 켜기로 변경하면 작동하지 않습니다.
Matthew Flaschen

@MatthewFlaschen 내가 쓴 것은 저에게 효과적이었습니다. 사용한 논증을 제공 할 수 있습니까?
Parsa

이전에 실행 한 정확한 명령이 없습니다. 그러나 wget --recursive --level=inf --page-requisites --convert-links --html-extension --span-hosts=example.org,iana.org example.org 데비안에서 GNU Wget 1.13.4를 사용하고 있습니다.
Matthew Flaschen

3
시도 --span-hosts --domains=example.org,iana.org- --span-hosts부울이어야 한다고 생각 --domains하고 확장 할 호스트를 지정하는 데 사용합니다.
Eric Mill

Konklone, --span-hosts는 1.12 이후의 부울입니다. @ MatthewFlaschen, 나는 대답을 업데이트했습니다. 그건 그렇고, Windows 용 GNU 도구를 사용하는 경우 1.11 이전 버전에서 계속 작동합니다.
Parsa

1

wget --recursive --level = inf --page-requisites --convert-links --html-extension -rH -DdomainA, domainB domainA


이것은 부분적으로 작동합니다. 그러나 어떤 이유로 URL (끝에)이 리디렉션 인 경우 작동하지 않는 것 같습니다. 또한 페이지 요구 사항뿐만 아니라 링크도 다운로드합니다. 또한 -r과 --recursive는 동일합니다.
Matthew Flaschen


-1

HTTrack 사용을 고려하십시오 . wget 이외의 다른 도메인에서 컨텐츠를 크롤링 할 때 더 많은 옵션이 있습니다. --span-hosts, --domains 및 --w와 함께 wget을 사용하면 내 요구에 불충분 한 곳을 수락하지만 HTTrack이 작업을 수행했습니다. 다른 도메인에서 리디렉션 제한을 설정하면 많은 도움이되었다는 것을 기억합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.