wget
프로그램을 사용하고 있지만 다운로드하는 html 파일을 저장하지 않기를 원합니다. 수령 후 폐기하고 싶습니다. 어떻게합니까?
wget
프로그램을 사용하고 있지만 다운로드하는 html 파일을 저장하지 않기를 원합니다. 수령 후 폐기하고 싶습니다. 어떻게합니까?
답변:
파일을 저장하지 않고, 당신이 페이지를 다운로드하는 솔루션을 수락 한 경우에 /dev/null
, 나는 당신이 얻을 및 페이지 내용을 구문 분석하지 wget과를 사용하는 가정 .
원격 작업을 트리거 해야하는 경우 페이지가 존재하는지 확인하십시오. 그렇기 때문에 html 본문 페이지를 다운로드하지 않는 것이 좋습니다.
함께 플레이 wget
등 단지 당신이 정말로 필요, 즉 HTTP 헤더, 요청 상태를 검색하기 위해 옵션
페이지가 정상인지 확인해야한다고 가정하면 (즉, 반환 된 상태가 200 임) 다음을 수행 할 수 있습니다.
wget --no-cache --spider http://your.server.tld/your/page.html
서버 리턴 헤더를 구문 분석하려면 다음을 수행하십시오.
wget --no-cache -S http://your.server.tld/your/page.html
사용할 추가 옵션에 대해서는 wget 매뉴얼 페이지 를 참조하십시오 . wget의 대안으로
참조하십시오 lynx
.
--no-cache
매뉴얼 페이지에서 wget이 "원격 서비스에서 파일을 가져 오기 위해 적절한 지시문 ( 'Pragma : no-cache')을 원격 서버로 보냅니다"
* NIX 상자 및를 사용 wget
하는 경우 파일에 쓰지 않는 것이 좋습니다. Ubuntu 10.04 상자 wget -O /dev/null
에서 첫 번째 다운로드 후 wget이 다운로드를 중단 시키는 것을 알았습니다 .
또한 wget -O real-file
wget이 페이지의 실제 링크를 잊어 버린 것으로 나타났습니다 . index.html
각 페이지에 존재 한다고 주장 합니다. 이러한 페이지가 항상 존재하는 것은 아니며 wget은 이전에 본 링크를 기억하지 않습니다.
mkdir /dev/shm/1
cd /dev/shm/1
wget --recursive --relative --no-parent ...
-O file
옵션 이 없습니다 . wget은 $ PWD 디렉토리에 씁니다. 이 경우에는 RAM 전용 tmpfs 파일 시스템입니다. 여기서 쓰는 것은 스왑 공간에 따라 디스크 이탈을 우회하고 모든 링크를 추적해야합니다. 전체 웹 사이트를 성공적으로 크롤링해야합니다.
물론 물론
rm --recursive --force /dev/shm/1/*
/dev/null
작동합니까?