답변:
로봇 에 대한 정보 에 따르면 우리의 페이지에 액세스 :
우리 사이트에 대한 로봇 액세스는 다른 모든 것이 실패했을 때 마지막 리소스로 남겨 두어야합니다. 또한 Project Gutenberg 웹 사이트는 저작권의 보호를받습니다.
그러나 희망이 있습니다 .
더 나은 대안
- Project Gutenberg 웹 사이트의 오프라인 버전을 받으십시오.
- 모든 Project Gutenberg 전자 책 파일을받습니다.
- Project Gutenberg 카탈로그 데이터를 가져옵니다.
과:
[...] http://www.gutenberg.org/robot/harvest 에서 로봇을 가리켜 압축 파일로 모든 eBook을 얻을 수 있습니다 .
[...] zip 파일의 압축을 풀면 다른 70,000 개의 파일이 생성됩니다.
다음을 사용하여 모든 파일을 가져 오는 방법의 예입니다
wget
.wget -w 2 -m http://www.gutenberg.org/robot/harvest
[...] 파일 형식이 일부만 필요한 경우 :
wget -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt
[...] 주어진 언어로 된 파일 만 원한다면 다음과 같이 말합니다.
wget -w 2 -m http://www.gutenberg.org/robot/harvest?langs[]=de
그래서 나는 묻습니다.
wget -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt&langs[]=en
--level=0
. 그러나 중단하고 다시 시작하는 것이 더 좋습니다 : try --level 9999 --no-clobber
. 이미 가지고있는 파일을 건너 뜁니다 (여전히 디스크의 동일한 폴더에 있다고 가정).
-c
옵션 을 사용 했지만 여전히. 내가 준 offset=xxx
미러링 할 수있는 URL에 있지만 여전히 첫 페이지에서 다운로드됩니다.
구텐베르크 영어 서적 과 다른 언어 의 전체 모음을 하나의 ZIM 파일 로 다운로드 할 수 있습니다. 이 압축 파일은 압축률이 높으며 데스크톱과 Android에서 Kiwix 로 열 수 있습니다 . 영어 서적은 40GB입니다.
선택한 답변은 정확하지만 두 가지 문제가 발생할 수 있습니다.
wget
명령이 외부 미러에서 파일을 다운로드 할 때 재귀 적으로 검사하지 못합니다.아래 솔루션은 이러한 문제를 해결합니다.
wget -H -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt&langs[]=en \
--referer="http://www.google.com" \
--user-agent="Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6" \
--header="Accept: text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5" \
--header="Accept-Language: en-us,en;q=0.5" \
--header="Accept-Encoding: gzip,deflate" \
--header="Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7" \
--header="Keep-Alive: 300"
약간의 임의성을 제공하기 위해 참조 자 및 사용자 에이전트 문자열을 변경할 수 있습니다.
ftp://mirrors.pglaf.org/mirrors/gutenberg-iso 에는 몇 가지 좋은 옵션이 있습니다.
ftp://mirrors.pglaf.org/mirrors/gutenberg-iso/pgdvd042010.iso 는 필요에 충분한 8GB 파일입니다.
여기에 더 많은 정보가 있습니다 :
https://www.gutenberg.org/wiki/Gutenberg:The_CD_and_DVD_Project#Downloading_Via_FTP 는 FTP 및 BitTorrent를 포함하여 아카이브를 다운로드하는 모든 옵션을 제공합니다.
또 다른 옵션은 http://pgiso.pglaf.org/ 의 훌륭한 도구 입니다.
지나치게 복잡하고 위에 기술 된 프로그래밍 기술과 지식을 사용하여 모든 동작을 연결하고 "현재 모든 책 다운로드"라고하는 간단한 버튼을 클릭하면 언어 옵션 탭이 표시됩니다.
사이트를 방문하는 대부분의 사용자는 전자 책 수집 가라고 생각하며 관심있는 주제에 대한 특정 책을 수동으로 다운로드하면 1 ~ 2 권의 도서에 적합합니다. 그러나 더 큰 컬렉션을 수동으로 만드는 것은 드래그입니다. 그럼에도 불구하고 그들이 연구를 위해 필요하거나 단순히 자신의 PC에 거대한 디지털 도서 라이브러리를 소유하고 싶다면. 이 작업을 수행하려면 컴퓨터 마법사 여야한다는 사실을 알고 대부분의 사람들이 사이트에서 꺼지고 흩어집니다. 따라서 "모든 현재 서적 다운로드"버튼을 누르면 사이트와 프로젝트 사용자에게 도움이되며 확실히 더 많은 사이트 방문자. 그렇게하면 모두가 행복합니다.