Corpus / mots vides introuvables lors de l'importation de la bibliothèque nltk
J'ai essayer d'importer l'nltk paquet python 2.7
import nltk
stopwords = nltk.corpus.stopwords.words('english')
print(stopwords[:10])
De course, cela me donne l'erreur suivante:
LookupError:
**********************************************************************
Resource 'corpora/stopwords' not found. Please use the NLTK
Downloader to obtain the resource: >>> nltk.download()
Donc j'ouvre mon python termin et n'suivantes:
import nltk
nltk.download()
Qui me donne:
showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml
Toutefois, cela ne semble pas arrêter. Et en l'exécutant à nouveau me donne toujours la même erreur. Toutes les pensées que lorsque cela se passe mal?
source d'informationauteur Frits Verstraten
Vous devez vous connecter pour publier un commentaire.
Vous essayez de télécharger chaque élément dans nltk de données, donc cela peut prendre beaucoup de temps. Vous pouvez essayer de télécharger uniquement les mots vides que vous avez besoin de:
Certains comme mentionné ici par Kurt Bourbaki mais dans la ligne de commande:
Il suffit d'exécuter cette commande dans votre ipython notebook (ou tout autre éditeur de texte/IDE que vous utilisez):
Il va automatiquement télécharger le
stopword
fichier et le décompresser dans le répertoire requis.Si votre PC utilise un proxy pour la connectivité, alors essayez ceci: