Gutenberg에서 모든 영어 책을 다운로드하는 방법?


23

모든 구텐베르크 전자 책을 html이 아닌 일반 텍스트 형식으로 영어로만 다운로드해야합니다.

Gutenberg 서버에서 모두 다운로드하는 방법에 대한 제안이 있습니까?

언어 연구를하기 위해 그들이 필요합니다.

답변:


32

로봇 에 대한 정보 에 따르면 우리의 페이지에 액세스 :

우리 사이트에 대한 로봇 액세스는 다른 모든 것이 실패했을 때 마지막 리소스로 남겨 두어야합니다. 또한 Project Gutenberg 웹 사이트는 저작권의 보호를받습니다.

그러나 희망이 있습니다 .

더 나은 대안

  • Project Gutenberg 웹 사이트의 오프라인 버전을 받으십시오.
  • 모든 Project Gutenberg 전자 책 파일을받습니다.
  • Project Gutenberg 카탈로그 데이터를 가져옵니다.

과:

[...] http://www.gutenberg.org/robot/harvest 에서 로봇을 가리켜 압축 파일로 모든 eBook을 얻을 수 있습니다 .

[...] zip 파일의 압축을 풀면 다른 70,000 개의 파일이 생성됩니다.

다음을 사용하여 모든 파일을 가져 오는 방법의 예입니다 wget.

wget -w 2 -m http://www.gutenberg.org/robot/harvest

[...] 파일 형식이 일부만 필요한 경우 :

wget -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt

[...] 주어진 언어로 된 파일 만 원한다면 다음과 같이 말합니다.

wget -w 2 -m http://www.gutenberg.org/robot/harvest?langs[]=de

그래서 나는 묻습니다.

wget -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt&langs[]=en

크롤링하는 동안 다운로드하는 파일 수 (예 : 처음 100 개의 텍스트 파일)를 제한하도록 wget에 지시하는 방법이 있습니까?
rohanbk

또한 텍스트 파일에 여러 개의 링크가있는 경우 (절대 uri, " gutenberg.org/files/1.zip , gutenberg.org/files/2.zip " 이라고 말하면) 이러한 텍스트 파일을 제공하는 데 사용되는 매개 변수
EugeneP

@rohanbk, 당신처럼, URL 자체를 검색하여 다운로드됩니다 것을 볼 수 있습니다 gutenberg.org/robot/harvest?filetypes[]=txt&langs[]=en 실제로 페이지 매김있어이 쇼를, 그러나 페이지 당 파일의 수는 일정하지 . (크기에 따라 다를 수 있습니까?) 따라서 wget manual 에 따르면 재귀하지 않기 위해 시도해 볼 수 있습니다 --level=0. 그러나 중단하고 다시 시작하는 것이 더 좋습니다 : try --level 9999 --no-clobber. 이미 가지고있는 파일을 건너 뜁니다 (여전히 디스크의 동일한 폴더에 있다고 가정).
Arjan

1
@EugeneP --input-file 는 설명서를 참조하십시오 .
Arjan

@Arjan 다운로드 시작시 오프셋을 지정하는 방법이 있습니까? 몇 가지 이유로 다운로드가 중단되었으며 이제 wget이 첫 페이지에서 파일을 확인하기 시작했습니다. 나는 -c옵션 을 사용 했지만 여전히. 내가 준 offset=xxx미러링 할 수있는 URL에 있지만 여전히 첫 페이지에서 다운로드됩니다.
user13107

7

구텐베르크 영어 서적다른 언어전체 모음을 하나의 ZIM 파일 다운로드 할 수 있습니다. 이 압축 파일은 압축률이 높으며 데스크톱과 Android에서 Kiwix 로 열 수 있습니다 . 영어 서적은 40GB입니다.


kiwix 용 Linux 클라이언트 없음
aquagremlin

@aquagremlin 어? kiwix.org/wiki/Software#GNU.2FLinux 일부 배포판에 패키지되어 있습니다.
니모

2
죄송합니다. 잠을 자지 않고 큰 버튼 아래에 '다른 시스템'이 보이지 않았습니다.
aquagremlin

이 txt 형식의 책입니까?
AD

@ AD 나는 당신이 무슨 뜻인지 잘 모르겠습니다. EPUB 또는 기타가 아닌 ZIM으로 패키지 된 HTML의 텍스트 + 이미지입니다. 원한다면 일반 텍스트를 얻을 수 있지만 제 답변은 대부분 책을 좋아하는 사람들을위한 것입니다.
Nemo

6

선택한 답변은 정확하지만 두 가지 문제가 발생할 수 있습니다.

  1. 봇으로 다운로드중인 추정에 따라 페이지 매김에 대한 액세스를 거부하는 403 오류가 표시 될 수 있습니다.
  2. 외부 미러로 전송 될 가능성이 있습니다. 즉, wget명령이 외부 미러에서 파일을 다운로드 할 때 재귀 적으로 검사하지 못합니다.

아래 솔루션은 이러한 문제를 해결합니다.

wget -H -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt&langs[]=en \
--referer="http://www.google.com" \
--user-agent="Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6" \
--header="Accept: text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5" \
--header="Accept-Language: en-us,en;q=0.5" \
--header="Accept-Encoding: gzip,deflate" \
--header="Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7" \
--header="Keep-Alive: 300"

약간의 임의성을 제공하기 위해 참조 자 및 사용자 에이전트 문자열을 변경할 수 있습니다.


5

ftp://mirrors.pglaf.org/mirrors/gutenberg-iso 에는 몇 가지 좋은 옵션이 있습니다.

ftp://mirrors.pglaf.org/mirrors/gutenberg-iso/pgdvd042010.iso 는 필요에 충분한 8GB 파일입니다.

여기에 더 많은 정보가 있습니다 :

https://www.gutenberg.org/wiki/Gutenberg:The_CD_and_DVD_Project#Downloading_Via_FTP 는 FTP 및 BitTorrent를 포함하여 아카이브를 다운로드하는 모든 옵션을 제공합니다.


1
gutenberg.org/wiki/… 토런트를보다 윤리적 인 옵션으로 사용하는 것이 좋습니다 : gutenberg.org/wiki/… Project Gutenberg의 서버에 부담을 덜주기 때문에보다 윤리적입니다. 아마도 더 빠르고 효과적 일 것입니다. 또한 ftp보다 권장합니다. Linux를 사용하는 경우 Transmission은 목적에 적합한 비트 토런트 클라이언트입니다. 그러나 2010 년에 해당 사이트에 존재했던 책만 제공하지만 shadowhorst의 답변이 작동하지 않을 때 가장 좋은 옵션 인 것 같습니다.
Shule

3

또 다른 옵션은 http://pgiso.pglaf.org/ 의 훌륭한 도구 입니다.

  1. ID 범위를 입력하십시오 (예 : 1-10000)
  2. 원하는 파일 형식을 선택하십시오
  3. 포함 할 언어를 선택하십시오
  4. 알림을 기다립니다
  5. 다운로드

2
나를 위해 일하지 않고, 나는 원시 PHP 만 볼 수 있습니다
어니스트

-4

지나치게 복잡하고 위에 기술 된 프로그래밍 기술과 지식을 사용하여 모든 동작을 연결하고 "현재 모든 책 다운로드"라고하는 간단한 버튼을 클릭하면 언어 옵션 탭이 표시됩니다.

사이트를 방문하는 대부분의 사용자는 전자 책 수집 가라고 생각하며 관심있는 주제에 대한 특정 책을 수동으로 다운로드하면 1 ~ 2 권의 도서에 적합합니다. 그러나 더 큰 컬렉션을 수동으로 만드는 것은 드래그입니다. 그럼에도 불구하고 그들이 연구를 위해 필요하거나 단순히 자신의 PC에 거대한 디지털 도서 라이브러리를 소유하고 싶다면. 이 작업을 수행하려면 컴퓨터 마법사 여야한다는 사실을 알고 대부분의 사람들이 사이트에서 꺼지고 흩어집니다. 따라서 "모든 현재 서적 다운로드"버튼을 누르면 사이트와 프로젝트 사용자에게 도움이되며 확실히 더 많은 사이트 방문자. 그렇게하면 모두가 행복합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.