webentwicklung-frage-antwort-db.com.de

Verwenden von kaggle-Datasets in Google Colab

Ist es möglich, in kaggle verfügbare Datensätze direkt in Google Colab zu verwenden? Ich sehe Kaggle API in this link, aber anscheinend hat es nur bestimmte Datensätze und ist für mich etwas verwirrend. 

15
hdiz

Schritt für Schritt --

  1. Erstellen Sie einen API-Schlüssel in Kaggle.

    Gehen Sie dazu auf kaggle.com/ und öffnen Sie die Seite mit den Benutzereinstellungen .  settings nav

  2. Scrollen Sie anschließend zum Abschnitt API-Zugriff und klicken Sie auf generieren, um einen API-Schlüssel herunterzuladen  api token Dadurch wird eine Datei mit dem Namen kaggle.json auf Ihren Computer heruntergeladen . Sie verwenden diese Datei in Colab, um auf Kaggle-Datasets und -Wettbewerbe zuzugreifen.

  3. Navigieren Sie zu https://colab.research.google.com/.

  4. Laden Sie Ihre kaggle.json-Datei mit dem folgenden Code in Einer Codezelle hoch:

    from google.colab import files files.upload()

  5. Installieren Sie die Kaggle-API mit !pip install -q kaggle

  6. Verschieben Sie die kaggle.json-Datei in ~/.kaggle. Dort erwartet der -Client, dass sich Ihr Token befindet:

    !mkdir -p ~/.kaggle !cp kaggle.json ~/.kaggle/

  7. Jetzt können Sie mit dem Client auf Datensätze zugreifen, z. B. !kaggle datasets list.

Hier ist ein vollständiges Beispiel für den Colab-Teil dieses Prozesses: https://colab.research.google.com/drive/1DofKEdQYaXmDWBzuResXWWvxhLgDeVyl

Dieses Beispiel zeigt das Hochladen der kaggle.json-Datei, des Kaggle-API-Clients und die Verwendung des Kaggle-Clients zum Herunterladen eines Datasets.

36
Bob Smith

Sie sollten in der Lage sein, über die API auf alle Datensätze in Kaggle zuzugreifen. In diesem Beispiel werden nur die Datensätze für Wettbewerbe aufgelistet. Sie können die Datensätze sehen, auf die Sie mit diesem Befehl zugreifen können:

kaggle datasets list

Sie können auch nach Datensätzen suchen, indem Sie das Tag -s und dann den Suchbegriff hinzufügen, an dem Sie interessiert sind. Sie erhalten also eine Liste mit Datensätzen zu Hunden:

kaggle datasets list -s dogs

Weitere Informationen zur API und deren Verwendung finden Sie in der Dokumentation unter .

Hoffentlich hilft das! :)

7
Rachael Tatman

Ich habe dieses Tutorial, um die Kaggle-API in Google Colab direkt zu verwenden, ohne den Datensatz über Ihren lokalen Computer herunterzuladen und hochzuladen. Kaggle API + Colaboratory

3
Madmint

Schauen Sie sich this an.

Es verwendet offizielles Kaggle-Api hinter der Szene, automatisiert jedoch den Prozess, so dass Sie nicht jedes Mal, wenn Ihr VM entfernt wird, manuell erneut heruntergeladen werden müssen. Ein weiteres Problem bei der Verwendung der Kaggle-API direkt in Colab war der umständliche Transfer von Kaggle-API-Token über Google Drive. Die obige Methode automatisiert dies ebenfalls.

Haftungsausschluss: Ich bin einer der Macher von Clouderizer.

1
Prakash Gupta

Kombiniert die Top-Antwort auf diese Github Gist als Colab-Implementierung . Sie können den Code direkt kopieren und verwenden.

Importieren eines Datensatzes aus Kaggle in Colab

Methode:

Zunächst ein paar Dinge, die Sie tun müssen:

  1. Melden Sie sich bei Kaggle an
  2. Melden Sie sich für einen Wettbewerb an, von dem Sie auf Daten zugreifen möchten (z. B. LANL-Earthquake-Prediction-Wettbewerb ).
  3. Laden Sie Ihre Anmeldeinformationen herunter, um mit kaggle.json Auf die Kaggle-API zuzugreifen.
# Install kaggle packages
!pip install -q kaggle
!pip install -q kaggle-cli
# Colab's file access feature
from google.colab import files

# Upload `kaggle.json` file
uploaded = files.upload()
# Retrieve uploaded file
# print results
for fn in uploaded.keys():
  print('User uploaded file "{name}" with length {length} bytes'.format(
      name=fn, length=len(uploaded[fn])))

# Then copy kaggle.json into the folder where the API expects to find it.
!mkdir -p ~/.kaggle
!cp kaggle.json ~/.kaggle/
!chmod 600 ~/.kaggle/kaggle.json
!ls ~/.kaggle

Überprüfen Sie nun, ob es funktioniert hat!

#list competitions
!kaggle competitions list -s LANL-Earthquake-Prediction
1
CypherX

Um die Wettbewerbsdaten auf Google Colab von kaggle herunterzuladen. Ich arbeite an Google Colab und habe das gleiche Problem durchgemacht. aber ich habe zwei tings gemacht.

Zuerst müssen Sie Ihre Handynummer zusammen mit Ihrer Landesvorwahl registrieren. Zweitens müssen Sie auf die letzte Einreichung auf der Kaggle-Dataset-Seite klicken. Dann laden Sie die Datei kaggle.json von kaggle.upload kaggle.json auf google colab herunter.

!pip install -q kaggle
!mkdir -p ~/.kaggle
!cp kaggle.json ~/.kaggle/ 
!chmod 600 ~/.kaggle/kaggle.json 
!kaggle competitions download -c web-traffic-time-series-forecasting
1
Priyansh gupta

Führen Sie zunächst diesen Befehl aus, um herauszufinden, wo diese colab-Datei vorhanden ist und wie sie ausgeführt wird. enter image description here!ls -d $PWD/* Wird sich zeigen /content/data /content/gdrive /content/models Mit anderen Worten, Ihr aktuelles Verzeichnis ist root/content /. Ihr Arbeitsverzeichnis (pwd) ist/content /. Also, wenn Sie !ls, wird sich zeigen data gdrive models. Zu Ihrer Information! Ermöglicht das Ausführen von Linux-Befehlen in colab.

Google Drive räumt weiterhin den Ordner/content auf. Daher ist jede Sitzung, in der Sie colab, heruntergeladene Datensätze und kaggle json-Dateien verwenden, verschwunden. Aus diesem Grund ist es wichtig, den Prozess zu automatisieren, damit Sie sich auf das Schreiben von Code konzentrieren können und nicht jedes Mal die Umgebung einrichten müssen.

Führen Sie dies als Beispiel mit Ihrem eigenen API-Schlüssel im colab-Codeblock aus. Öffnen Sie die Datei kaggle.json. du wirst sie herausfinden.

# Info on how to get your api key (kaggle.json) here: https://github.com/Kaggle/kaggle-api#api-credentials
!pip install kaggle
{"username":"seunghunsunmoonlee","key":""}
import json
import zipfile
import os
with open('/content/.kaggle/kaggle.json', 'w') as file:
    json.dump(api_token, file)
!chmod 600 /content/.kaggle/kaggle.json
!kaggle config path -p /content
!kaggle competitions download -c dog-breed-identification
os.chdir('/content/competitions/dog-breed-identification')
for file in os.listdir():
    Zip_ref = zipfile.ZipFile(file, 'r')
    Zip_ref.extractall()
    Zip_ref.close()

Dann renne !ls nochmal. Sie sehen alle Daten, die Sie benötigen. Ich hoffe es hilft!

nach den obigen Schritten (1-6) können Sie zur Verwendung des Datensatzes eines bestimmten Wettbewerbs in colab den Befehl verwenden:

! kaggle-Wettbewerbe herunterladen -c elo-Händler-Kategorie-Empfehlung

(elo-Händler-Kategorie-Empfehlung ist der Name des Wettbewerbs.)

0
Avocano