À l'aide de Kaggle ensembles de données dans Google Colab
Est-il possible d'utiliser tous les ensembles de données disponibles via le kaggle
API Google Colab? Je vois le Kaggle API est utilisée dans cette Colab portable, mais c'est un peu claire pour moi ce jeux de données qu'il fournit l'accès à l'.
OriginalL'auteur hdiz | 2018-03-15
Vous devez vous connecter pour publier un commentaire.
Étape-par-étape --
Créer une clé API dans Kaggle.
Pour ce faire, allez à la kaggle.com/et ouvrez votre page de paramètres utilisateur.
Suivante, faites défiler vers le bas pour l'accès aux API de la section et cliquez sur générer
pour télécharger une clé API.
Ceci va télécharger un fichier appelé
kaggle.json
à votre ordinateur.Vous pourrez utiliser ce fichier en Colab pour accéder à Kaggle ensembles de données et
les compétitions.
Accédez à https://colab.research.google.com/.
Télécharger votre
kaggle.json
fichier à l'aide de l'extrait de code suivant dansune cellule de code:
from google.colab import files
files.upload()
Installer le kaggle de l'API à l'aide de
!pip install -q kaggle
Déplacer le
kaggle.json
fichier dans~/.kaggle
, qui est l'endroit où l'API client s'attend votre jeton situé:
!mkdir -p ~/.kaggle
!cp kaggle.json ~/.kaggle/
Maintenant, vous pouvez accéder aux jeux de données à l'aide du client, par exemple,
!kaggle datasets list
.Voici un exemple complet d'ordinateur portable de la Colab partie de ce processus:
https://colab.research.google.com/drive/1DofKEdQYaXmDWBzuResXWWvxhLgDeVyl
Cet exemple montre le téléchargement du
kaggle.json
fichier, la Kaggle API client, et à l'aide de la Kaggle client pour télécharger un jeu de données.!if [ ! -f ~/.kaggle/kaggle.json ]; then python "from google.colab import files \n files.upload()" && mkdir -p ~/.kaggle && cp kaggle.json ~/.kaggle/ && chmod 600 ~/.kaggle/kaggle.json; fi
Deux dernières partie ne fonctionne pas correctement pour moi. Pour l'avant dernière partie (Téléchargement) obtenir ceci: Téléchargement stack-overflow-2018-developer-survey.zip à /de contenu Pour la dernière partie se présente:tête: impossible d'ouvrir " /root/.kaggle/datasets/stackoverflow/stack overflow-2018-développeur-enquête/survey_results_public.csv " pour la lecture: Aucun fichier ou répertoire
Merci pour cela, j'ai grandement besoin de cette réponse
OriginalL'auteur Bob Smith
Vous devriez être en mesure d'accéder à un ensemble de données sur Kaggle, via l'API. Dans cet exemple, seuls les jeux de données pour les compétitions sont inscrites. Vous pouvez voir que les jeux de données vous pouvez accéder à cette commande:
Vous pouvez également rechercher des jeux de données par l'ajout de l'option-s de la balise, puis le terme de recherche qui vous intéresse. Donc, ce serait vous donner une liste des ensembles de données sur les chiens:
Vous pouvez trouver plus d'informations sur l'API et comment l'utiliser dans le la documentation ici.
Espère que ça aide! 🙂
encore une question : si colab portable déconnecté ou pour toute autre raison se passer comme temps morts de la machine virtuelle pour ordinateur portable est arrivé , dans ce cas, dois-je retélécharger dataset nouveau ou pas ?
Vous devrez re-télécharger les données à chaque fois que votre machine virtuelle redémarre (tout comme la réinstallation des paquets). Donc, si il se déconnecte et se reconnecte très rapidement, vous ne devriez pas avoir à re-télécharger les données. Mais si vous obtenez une nouvelle VM, après 90 minutes d'inactivité, alors vous aurez besoin de re-télécharger les données.
a-t-elle une taille aussi grande que ce que vraiment jeu de données , ou google, il suffit de télécharger des choses spécifiques pour l'utilisation de ce dataset ?
vous pouvez utiliser
!df -h
pour savoir combien d'espace libre sur le disque dur.OriginalL'auteur Rachael Tatman
J'ai ce tutoriel pour utiliser Kaggle API Google Colab directement, sans téléchargement et le téléchargement de l'ensemble de données par le biais de votre machine locale.
Kaggle + API Colaboratory
OriginalL'auteur Madmint
Ont un coup d'oeil à cette.
Il utilise les kaggle api derrière la scène, mais qui automatise le processus de sorte que vous n'avez pas à re-télécharger manuellement à chaque fois que votre VM est enlevé. Aussi, une autre question, j'ai fait face avec l'aide de Kaggle API directement sur Colab a été le souci de transfert de Kaggle clé API via Google Drive. Méthode ci-dessus automatise.
Disclaimer: je suis l'un des créateurs de Clouderizer.
J'ai modifié ma réponse que par le biais de votre recommandation. Merci .
OriginalL'auteur Prakash Gupta
après les étapes 1 à 6 ci-dessus, utiliser un dataset à partir d'un concours en particulier en colab,
vous pouvez utiliser la commande:
!kaggle compétitions télécharger -c elo-marchand de-catégorie-recommandation
( elo-marchand de-catégorie-la recommandation est le nom de la concurrence. )
OriginalL'auteur Avocano
Tout d'abord, exécutez cette commande pour savoir où cette colab fichier existe, comment il s'exécute.
!ls -d $PWD/*
Il montrera
/content/data /content/gdrive /content/models
En d'autres termes, le répertoire courant est root/content/. Votre répertoire de travail(pwd) /contenu/. ainsi, lorsque vous vous
!ls
, il va montrerdata gdrive models
.Pour info, ! vous permet d'exécuter des commandes linux à l'intérieur de colab.
Google Drive garde le nettoyage de l' /dossier de contenu. Par conséquent, à chaque session que vous utilisez colab, téléchargé des jeux de données, kaggle fichier json aura disparu. C'est pourquoi il est important d'automatiser le processus, de sorte que vous pouvez vous concentrer sur l'écriture de code, pas de la configuration de l'environnement de tous les temps.
Exécuter cette colab bloc de code comme un exemple avec votre propre clé api. ouvrir kaggle.fichier json. vous les trouverez.
Puis exécutez
!ls
de nouveau. Vous verrez toutes les données dont vous avez besoin.Espérons que cela aide!
OriginalL'auteur Seunghun Sunmoon Lee