우선, 이것은 OS X의 유일한 문제인 것 같습니다. Ubuntu 14.04 LTS에서 위의 명령을 사용할 수 있으며 상자에서 작동합니다! 몇 가지 제안 사항 :
.css
파일 및 이미지 등을 다운로드하지 않는 것 같습니다. 적어도 실행중인 상태 (ok, 아마도 프로세스가 완료되면 다운로드 될 수 있으므로이 단계를 건너 뛸 수 있습니다)
당신이 말할 때 --domains wikispaces.com
, 다른 도메인에있는 링크 된 CSS 파일을 다운로드하지 않을 것입니다. 해당 웹 사이트의 스타일 시트 중 일부는 http://c1.wikicdn.com
as index.html의 소스를 제안
일부 웹 사이트에서는 링크를 사용하여 링크 된 파일 (참조 된 이미지)에 직접 액세스 할 수 없습니다 ( 이 페이지 ). 웹 사이트에서만 볼 수 있습니다. 그것은 여기의 경우 인 것처럼 보이지 않습니다.
Wget은 HTML을 구문 분석하는 동안 주석을 인식하지 않는 것 같습니다. Wget이 실행 중일 때 나는 다음을 본다.
--2016-07-01 04:01:12-- http://chessprogramming.wikispaces.com/%3C%25-%20ws.context.user.imageUrlPrefix%20%25%3Elg.jpg
Reusing existing connection to chessprogramming.wikispaces.com:80.
HTTP request sent, awaiting response... 404 Not Found
2016-07-01 04:01:14 ERROR 404: Not Found.
브라우저에서 링크를 열면 로그인 페이지로 이동합니다. 파일 이름은 주석의 어딘가에서 발생했음을 나타냅니다.
- 많은 사이트는 다운로드 관리자를 사용하여 다운로드하는 것을 허용하지 않으므로 어떤 클라이언트가 HTTP 요청 (브라우저 또는 서버에서 파일을 요청하는 데 사용한 클라이언트를 포함)을 확인했는지 확인합니다.
용도 -U somebrowser
클라이언트를 위조하고 브라우저 인 것처럼 가장합니다. 예를 들어, -U mozilla
Mozilla / Firefox가 페이지를 요청하고 있음을 서버에 알리기 위해 추가 할 수 있습니다. 그러나이 인수없이 사이트를 다운로드 할 수 있기 때문에 여기에 문제가되지 않습니다.
- 다운로드 및 요청 비율은 중요합니다. 서버는 사이트에서 데이터를 요청하는 로봇에 의해 성능이 부풀려지는 것을 원하지 않습니다. 용도
--limit-rate=
과 --wait=
다운로드 속도를 제한하고 개별 파일에 대한 요청을 생성하는 사이에 몇 초 기다리는 Wget의 인수.
예 :
wget -r --wait=5 --limit-rate=100K <other arguments>
get 요청 사이에 5 초 간 기다리고 다운로드 속도를 100Kbps로 제한하십시오. 다시 한 번 말하지만, 서버가 웹 사이트를 가져 오기 위해 다운로드 속도를 제한 할 것을 요구하지 않았기 때문에 이것은 여기서 문제가되지 않습니다.
여기서 가장 가능한 경우는 (1)입니다. 교체 --domains wikispaces.com
와 --domains *
다시 시도하십시오. 우리가 어디 있는지 보자. 최소한 CSS 파일을 가져올 수 있어야합니다.
HTML 확장 기능이 추가되지 않았습니다.
명령을 실행하면 HTML 확장이 추가됩니다.
링크가 변환되지 않습니다.
내가 여기서 완전히 맞으면 생각하지 않지만 사이트를 미러링 할 때 링크가 작동 할 것으로 기대하지 마십시오.
HTTP get 요청에 인수를 전달하면 (예 : http://chessprogramming.wikispaces.com/wiki/xmla?v=rss_2_0
논쟁이있다 v=rss_2_0
), 요청은 서버에서 실행되는 일부 스크립트 (예 : PHP)로 처리됩니다. 인수는 인수에 따라 올바른 버전의 스크립트를 가져 오는 데 도움이됩니다. 웹 사이트를 미러링 할 때, 특히 PHP에서 실행되는 Wiki를 정확하게 기억할 수는 없습니다. 거울 원본 PHP 스크립트를 가져 오지 않는 한 사이트. PHP 스크립트가 반환하는 HTML 페이지는 해당 스크립트에서 볼 수있는 페이지의 한면에 불과합니다. 올바른 알고리즘 생성하다 페이지는 서버에 저장되며 원본 PHP 파일을 가져 오는 경우 올바르게 미러링됩니다.이 파일은 HTTP로 수행 할 수 없습니다. 이를 위해 서버에 대한 FTP 액세스가 필요합니다.
희망이 도움이됩니다.
wget -mkpr https://consoreddomain.com
내가 얻는 것은 그 안에 하나의 index.html 페이지가있는 디렉토리입니다. 이것이 답변을받을 수 있다면 좋을 것입니다.