webentwicklung-frage-antwort-db.com.de

Herunterladen eines Bildes über urllib und Python

Ich versuche also, ein Python-Skript zu erstellen, das Webcomics herunterlädt und in einem Ordner auf meinem Desktop ablegt. Ich habe hier ein paar ähnliche Programme gefunden, die etwas ähnliches tun, aber nichts, was ich brauche. Die, die ich am ähnlichsten fand, ist hier ( http://bytes.com/topic/python/answers/850927-problem-using-urllib-download-images ). Ich habe versucht, diesen Code zu verwenden:

>>> import urllib
>>> image = urllib.URLopener()
>>> image.retrieve("http://www.gunnerkrigg.com//comics/00000001.jpg","00000001.jpg")
('00000001.jpg', <httplib.HTTPMessage instance at 0x1457a80>)

Dann habe ich meinen Computer nach einer Datei "00000001.jpg" durchsucht, aber alles, was ich fand, war das zwischengespeicherte Bild davon. Ich bin nicht einmal sicher, ob die Datei auf meinem Computer gespeichert wurde. Sobald ich verstanden habe, wie man die Datei herunterlädt, weiß ich, wie ich mit dem Rest umgehen kann. Verwenden Sie im Wesentlichen eine for-Schleife und teilen Sie den String an der '00000000'. 'Jpg' und erhöhen Sie die '00000000' auf die größte Zahl, die ich irgendwie ermitteln müsste. Irgendwelche Empfehlungen, wie Sie dies am besten tun oder wie Sie die Datei richtig herunterladen?

Vielen Dank!

EDIT 6/15/10

Hier ist das fertige Skript, es speichert die Dateien in einem beliebigen Verzeichnis. Aus irgendeinem seltsamen Grund wurden die Dateien nicht heruntergeladen und sie taten es einfach. Irgendwelche Vorschläge, wie man es aufräumt, würden uns sehr freuen. Ich arbeite derzeit daran, herauszufinden, wie viele Comics auf der Website vorhanden sind, so dass ich nur die neuesten erhalten kann, anstatt das Programm nach einer bestimmten Anzahl von Ausnahmen beenden zu müssen.

import urllib
import os

comicCounter=len(os.listdir('/file'))+1  # reads the number of files in the folder to start downloading at the next comic
errorCount=0

def download_comic(url,comicName):
    """
    download a comic in the form of

    url = http://www.example.com
    comicName = '00000000.jpg'
    """
    image=urllib.URLopener()
    image.retrieve(url,comicName)  # download comicName at URL

while comicCounter <= 1000:  # not the most elegant solution
    os.chdir('/file')  # set where files download to
        try:
        if comicCounter < 10:  # needed to break into 10^n segments because comic names are a set of zeros followed by a number
            comicNumber=str('0000000'+str(comicCounter))  # string containing the eight digit comic number
            comicName=str(comicNumber+".jpg")  # string containing the file name
            url=str("http://www.gunnerkrigg.com//comics/"+comicName)  # creates the URL for the comic
            comicCounter+=1  # increments the comic counter to go to the next comic, must be before the download in case the download raises an exception
            download_comic(url,comicName)  # uses the function defined above to download the comic
            print url
        if 10 <= comicCounter < 100:
            comicNumber=str('000000'+str(comicCounter))
            comicName=str(comicNumber+".jpg")
            url=str("http://www.gunnerkrigg.com//comics/"+comicName)
            comicCounter+=1
            download_comic(url,comicName)
            print url
        if 100 <= comicCounter < 1000:
            comicNumber=str('00000'+str(comicCounter))
            comicName=str(comicNumber+".jpg")
            url=str("http://www.gunnerkrigg.com//comics/"+comicName)
            comicCounter+=1
            download_comic(url,comicName)
            print url
        else:  # quit the program if any number outside this range shows up
            quit
    except IOError:  # urllib raises an IOError for a 404 error, when the comic doesn't exist
        errorCount+=1  # add one to the error count
        if errorCount>3:  # if more than three errors occur during downloading, quit the program
            break
        else:
            print str("comic"+ ' ' + str(comicCounter) + ' ' + "does not exist")  # otherwise say that the certain comic number doesn't exist
print "all comics are up to date"  # prints if all comics are downloaded
148
Mike

Verwenden von urllib.urlretrieve :

import urllib
urllib.urlretrieve("http://www.gunnerkrigg.com//comics/00000001.jpg", "00000001.jpg")
212
import urllib
f = open('00000001.jpg','wb')
f.write(urllib.urlopen('http://www.gunnerkrigg.com//comics/00000001.jpg').read())
f.close()
75
DiGMi

Nur für die Aufzeichnung mit der Anforderungsbibliothek.

import requests
f = open('00000001.jpg','wb')
f.write(requests.get('http://www.gunnerkrigg.com//comics/00000001.jpg').content)
f.close()

Es sollte jedoch auf request.get () Fehler geprüft werden.

52
ellimilial

Für Python 3 müssen Sie import urllib.request importieren:

import urllib.request 

urllib.request.urlretrieve(url, filename)

weitere Informationen finden Sie unter link

21
HISI

Python 3-Version von @ DiGMis Antwort:

from urllib import request
f = open('00000001.jpg', 'wb')
f.write(request.urlopen("http://www.gunnerkrigg.com/comics/00000001.jpg").read())
f.close()
14

Ich habe diese Antwort gefunden und ich bearbeite das auf zuverlässigere Weise

def download_photo(self, img_url, filename):
    try:
        image_on_web = urllib.urlopen(img_url)
        if image_on_web.headers.maintype == 'image':
            buf = image_on_web.read()
            path = os.getcwd() + DOWNLOADED_IMAGE_PATH
            file_path = "%s%s" % (path, filename)
            downloaded_image = file(file_path, "wb")
            downloaded_image.write(buf)
            downloaded_image.close()
            image_on_web.close()
        else:
            return False    
    except:
        return False
    return True

Hierdurch erhalten Sie während des Herunterladens keine anderen Ressourcen oder Ausnahmen. 

10

Es ist am einfachsten, .read() zu verwenden, um die teilweise oder gesamte Antwort zu lesen und sie dann in eine Datei zu schreiben, die Sie an einem bekannten Ort geöffnet haben.

Vielleicht brauchst du 'User-Agent':

import urllib2
opener = urllib2.build_opener()
opener.addheaders = [('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.137 Safari/537.36')]
response = opener.open('http://google.com')
htmlData = response.read()
f = open('file.txt','w')
f.write(htmlData )
f.close()
6
Alexander

Wenn Sie wissen, dass sich die Dateien im selben Verzeichnis dir der Website site befinden und das folgende Format haben: Dateiname_01.jpg, ..., Dateiname_10.jpg, laden Sie alle herunter:

import requests

for x in range(1, 10):
    str1 = 'filename_%2.2d.jpg' % (x)
    str2 = 'http://site/dir/filename_%2.2d.jpg' % (x)

    f = open(str1, 'wb')
    f.write(requests.get(str2).content)
    f.close()
5
len

Dies funktionierte für mich mit Python 3.

Die Liste der URLs wird aus der CSV-Datei abgerufen und in einen Ordner heruntergeladen. Falls der Inhalt oder das Bild nicht vorhanden ist, nimmt es diese Ausnahme und zaubert weiter.

import urllib.request
import csv
import os

errorCount=0

file_list = "/Users/$USER/Desktop/YOUR-FILE-TO-DOWNLOAD-IMAGES/image_{0}.jpg"

# CSV file must separate by commas
# urls.csv is set to your current working directory make sure your cd into or add the corresponding path
with open ('urls.csv') as images:
    images = csv.reader(images)
    img_count = 1
    print("Please Wait.. it will take some time")
    for image in images:
        try:
            urllib.request.urlretrieve(image[0],
            file_list.format(img_count))
            img_count += 1
        except IOError:
            errorCount+=1
            # Stop in case you reach 100 errors downloading images
            if errorCount>100:
                break
            else:
                print ("File does not exist")

print ("Done!")
3
Victor

Abgesehen davon, dass Sie die Dokumente für retrieve() sorgfältig lesen ( http://docs.python.org/library/urllib.html#urllib.URLopener.retrieve ), würde ich vorschlagen, read() tatsächlich auf den Inhalt der Antwort aufzurufen und speichern Sie es in einer Datei Ihrer Wahl, anstatt es in der temporären Datei zu belassen, die von retrieve erstellt wird.

3
Gabriel Hurley

Alle oben genannten Codes erlauben nicht, den ursprünglichen Bildnamen beizubehalten, was manchmal erforderlich ist. Dies hilft beim Speichern der Bilder auf Ihrem lokalen Laufwerk, wobei der ursprüngliche Bildname erhalten bleibt

    IMAGE = URL.rsplit('/',1)[1]
    urllib.urlretrieve(URL, IMAGE)

Versuchen Sie dies für weitere Details.

2
Ojas

Eine einfachere Lösung kann (Python 3) sein:

import urllib.request
import os
os.chdir("D:\\comic") #your path
i=1;
s="00000000"
while i<1000:
    try:
        urllib.request.urlretrieve("http://www.gunnerkrigg.com//comics/"+ s[:8-len(str(i))]+ str(i)+".jpg",str(i)+".jpg")
    except:
        print("not possible" + str(i))
    i+=1;
1
Ayush

Was ist mit diesem:

import urllib, os

def from_url( url, filename = None ):
    '''Store the url content to filename'''
    if not filename:
        filename = os.path.basename( os.path.realpath(url) )

    req = urllib.request.Request( url )
    try:
        response = urllib.request.urlopen( req )
    except urllib.error.URLError as e:
        if hasattr( e, 'reason' ):
            print( 'Fail in reaching the server -> ', e.reason )
            return False
        Elif hasattr( e, 'code' ):
            print( 'The server couldn\'t fulfill the request -> ', e.code )
            return False
    else:
        with open( filename, 'wb' ) as fo:
            fo.write( response.read() )
            print( 'Url saved as %s' % filename )
        return True

##

def main():
    test_url = 'http://cdn.sstatic.net/stackoverflow/img/favicon.ico'

    from_url( test_url )

if __== '__main__':
    main()
1
gmas80

Ein anderer Weg, dies zu tun, ist über die Fastai-Bibliothek. Dies wirkte wie ein Zauber für mich. Ich hatte einen SSL: CERTIFICATE_VERIFY_FAILED Error mit urlretrieve, also habe ich es versucht.

url = 'https://www.linkdoesntexist.com/lennon.jpg'
fastai.core.download_url(url,'image1.jpg', show_progress=False)
0
Sid

Wenn Sie eine Proxy-Unterstützung benötigen, können Sie Folgendes tun:

  if needProxy == False:
    returnCode, urlReturnResponse = urllib.urlretrieve( myUrl, fullJpegPathAndName )
  else:
    proxy_support = urllib2.ProxyHandler({"https":myHttpProxyAddress})
    opener = urllib2.build_opener(proxy_support)
    urllib2.install_opener(opener)
    urlReader = urllib2.urlopen( myUrl ).read() 
    with open( fullJpegPathAndName, "w" ) as f:
      f.write( urlReader )
0
Eamonn Kenny