wget으로 블로그 미러링


9

예를 들어 님 www.example.com과 블로그를 미러링하려고합니다 wget.

wget을 다음 옵션과 함께 사용합니다 (쉘 변수가 올바르게 대체 됨).

wget -m -p -H -k -E -np \
    -w 1 \
    --random-wait \
    --restrict-file-names=windows \
    -P $folder \
    -Q${quota}m \
    -t 3 \
    --referer=$url \
    -U 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.6) Gecko/20070802 SeaMonkey/1.1.4' \
    -e robots=off \
    -D $domains
    -- $url

블로그에는 다른 도메인에있는 이미지가 포함되어 있습니다.

-p옵션 (링크 된 페이지 자산 다운로드) 을 지정했지만 옵션에 각 도메인을 명시 적으로 지정하지 않으면 이러한 이미지가 다운로드되지 않습니다 -D.

-D옵션을 생략하면 wget은 외부의 모든 링크를 따라 www.example.com전체 인터넷을 다운로드합니다.

그것은 가능합니다 wget바로 아래 모든 링크를 따라 www.example.com나 명시 적으로 각 도메인을 지정하지 않고 동일한 도메인에 그 상주 여부, 각 페이지의 필요한 자산을 다운로드?


나는 이것에도 좋은 대답을 찾고 싶습니다. 나는 같은 상황에 처해 있었고 그것을 한 번의 wget 호출을 찾을 수 없었습니다. 나는 wget -N -E -H -k -K -p먼저 사용 하고 누락 된 링크 된 이미지를 가져 오는 스크립트를 생각해 냈습니다.
lemonsqueeze

5
에 따르면 이 하나 , httrack는 이에 대한 살인자입니다. 다음에 wget 대신 샷을 드리겠습니다.
lemonsqueeze

(마이너스 페이지의 자산을) 블로그를 가정하면 모두 제거하려고 여러 도메인에 걸쳐되지 -D $domains뿐만 아니라 -H. -H그렇지 않으면 도메인 내에 있어야하지만 다른 도메인에있는 경우에도 직접 페이지 자산을 검색해야합니다.
blubberdiblub 16:19에

답변:


1

아니요, 유일한 방법은 -D 또는 --domains = [도메인 목록] (쉼표로 구분 된 목록 형식)을 사용하여 wget이 따라갈 도메인을 지정하는 것입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.