그래서 웹 코믹스를 다운로드하여 데스크탑의 폴더에 넣는 Python 스크립트를 만들려고합니다. 나는 비슷한 것을하는 몇 가지 유사한 프로그램을 찾았지만 필요한 것은 아닙니다. 내가 가장 비슷한 것으로 찾은 것은 바로 여기 ( http://bytes.com/topic/python/answers/850927-problem-using-urllib-download-images )입니다. 이 코드를 사용해 보았습니다.
>>> import urllib
>>> image = urllib.URLopener()
>>> image.retrieve("http://www.gunnerkrigg.com//comics/00000001.jpg","00000001.jpg")
('00000001.jpg', <httplib.HTTPMessage instance at 0x1457a80>)
그런 다음 컴퓨터에서 "00000001.jpg"파일을 검색했지만 캐시 된 사진 만 발견했습니다. 파일을 컴퓨터에 저장했는지 확실하지 않습니다. 파일 다운로드 방법을 이해하면 나머지를 처리하는 방법을 알고 있다고 생각합니다. 본질적으로 for 루프를 사용하고 '00000000'. 'jpg'에서 문자열을 분할하고 '00000000'을 가장 큰 숫자까지 늘리면 어떻게 든 결정해야합니다. 이 작업을 수행하는 가장 좋은 방법이나 파일을 올바르게 다운로드하는 방법에 대한 권장 사항은 무엇입니까?
감사!
6/15/10 편집
완성 된 스크립트는 다음과 같습니다. 선택한 디렉토리에 파일을 저장합니다. 이상한 이유로 파일이 다운로드되지 않았고 방금 완료되었습니다. 그것을 청소하는 방법에 대한 제안은 대단히 감사하겠습니다. 현재 사이트에 많은 만화가 있는지 확인하는 방법을 찾고 있으므로 특정 수의 예외가 발생한 후에 프로그램을 종료하지 않고 최신 만화를 얻을 수 있습니다.
import urllib
import os
comicCounter=len(os.listdir('/file'))+1 # reads the number of files in the folder to start downloading at the next comic
errorCount=0
def download_comic(url,comicName):
"""
download a comic in the form of
url = http://www.example.com
comicName = '00000000.jpg'
"""
image=urllib.URLopener()
image.retrieve(url,comicName) # download comicName at URL
while comicCounter <= 1000: # not the most elegant solution
os.chdir('/file') # set where files download to
try:
if comicCounter < 10: # needed to break into 10^n segments because comic names are a set of zeros followed by a number
comicNumber=str('0000000'+str(comicCounter)) # string containing the eight digit comic number
comicName=str(comicNumber+".jpg") # string containing the file name
url=str("http://www.gunnerkrigg.com//comics/"+comicName) # creates the URL for the comic
comicCounter+=1 # increments the comic counter to go to the next comic, must be before the download in case the download raises an exception
download_comic(url,comicName) # uses the function defined above to download the comic
print url
if 10 <= comicCounter < 100:
comicNumber=str('000000'+str(comicCounter))
comicName=str(comicNumber+".jpg")
url=str("http://www.gunnerkrigg.com//comics/"+comicName)
comicCounter+=1
download_comic(url,comicName)
print url
if 100 <= comicCounter < 1000:
comicNumber=str('00000'+str(comicCounter))
comicName=str(comicNumber+".jpg")
url=str("http://www.gunnerkrigg.com//comics/"+comicName)
comicCounter+=1
download_comic(url,comicName)
print url
else: # quit the program if any number outside this range shows up
quit
except IOError: # urllib raises an IOError for a 404 error, when the comic doesn't exist
errorCount+=1 # add one to the error count
if errorCount>3: # if more than three errors occur during downloading, quit the program
break
else:
print str("comic"+ ' ' + str(comicCounter) + ' ' + "does not exist") # otherwise say that the certain comic number doesn't exist
print "all comics are up to date" # prints if all comics are downloaded
beautifulsoup
있습니까? 이 게시물은 상위 beautifulsoup
질문 목록에 표시됩니다