답변:
wget --recursive --level=inf --page-requisites --convert-links --html-extension \
--span-hosts=domainA,domainB url-on-domainA
업데이트 : 위의 명령이 과거에 나를 위해 일한 것을 기억합니다 (2010 년 당시 Windows 용 GNU 도구를 사용하고있었습니다 ). 그러나 오늘 사용하고 싶을 때 다음과 같이 변경해야했습니다.
wget --recursive --level=inf --page-requisites --convert-links \
--adjust-extension --span-hosts --domains=domainA,domainB domainA
이에 대한 속기는 다음과 같습니다. wget -rEDpkH -l inf domainA,domainB domainA
-r
= --recursive
-l <depth>
= --level=<depth>
-E
= --adjust-extension
-p
= --page-requisites
-K
= --backup-converted
-k
= --convert-links
-D <domain-list>
= --domain-list=<domain-list>
-H
= --span-hosts
-np
= --no-parent
-U <agent-string>
= --user-agent=<agent-string>
GNU Wget 매뉴얼 : https://www.gnu.org/software/wget/manual/wget.html
domainA,domainB'; use
on '또는`off'. 켜기로 변경하면 작동하지 않습니다.
wget --recursive --level=inf --page-requisites --convert-links --html-extension --span-hosts=example.org,iana.org example.org
데비안에서 GNU Wget 1.13.4를 사용하고 있습니다.
--span-hosts --domains=example.org,iana.org
- --span-hosts
부울이어야 한다고 생각 --domains
하고 확장 할 호스트를 지정하는 데 사용합니다.
wget --recursive --level = inf --page-requisites --convert-links --html-extension -rH -DdomainA, domainB domainA
wget --page-requisites --convert-links --adjust-extension --span-hosts --domains domainA,domainB domainA
robots.txt를 무시해야 할 수도 있습니다 (이는 일부 서비스 약관을 위반하는 것일 수 있으며 필요한 최소값을 다운로드해야합니다). https://www.gnu.org/software/wget/manual/wget.html#Robot-Exclusion을 참조 하십시오 .