Filtre les flux Twitter que par le langage
Je suis en utilisant Tweepy API pour l'extraction des flux Twitter. Je veux extraire tous les flux Twitter d'un langage spécifique. Le filtre de langue ne fonctionne que si track
filtre est fourni. Le code suivant renvoie 406 erreur:
l = StdOutListener()
auth = OAuthHandler(consumer_key, consumer_secret)
auth.set_access_token(access_token, access_token_secret)
stream = Stream(auth, l)
stream.filter(languages=["en"])
Comment puis-je extraire tous les tweets de certains de la langue à l'aide de Tweepy?
Avez-vous résolu ce problème. Je tiens également à l'extrait spécifique de la langue tweet comme le japonais.
OriginalL'auteur Sudo | 2014-11-12
Vous devez vous connecter pour publier un commentaire.
Vous ne pouvez pas (sans accès spécial). Streaming tous les tweets (non filtrée) nécessite une connexion à le firehose, qui est accordée que dans des cas d'utilisation spécifiques par Twitter. Honnêtement, le firehose n'est pas vraiment nécessaire--utilisation appropriée de
suivi de
, vous pouvez obtenir en plus de tweets que vous savez quoi faire avec.Essayez d'utiliser quelque chose comme ceci:
Filtrage par mots comme vous obtenez beaucoup, beaucoup de tweets. Si vous voulez des données réelles pour la plupart des mots d'usage, découvrez cet article de Temps: Les 500 Plus Fréquemment Utilisé des Mots sur Twitter. Vous pouvez utiliser jusqu'à 400 mots-clés, mais qui sera probablement l'approche la limite de 1% des tweets à un intervalle de temps donné. Si votre
track
paramètre correspond à 60% de tous les tweets à un moment donné, vous n'aurez qu'un 1% (ce qui est un grand nombre de tweets).stream.filter(lang=["en"], track=["something"])
OriginalL'auteur Luigi
Autres que d'obtenir filtré tweets directement, vous pouvez la filtrer après l'obtention de toutes les tweets de langues différentes par:
Espère que cela aide.
OriginalL'auteur Jay Mehta
Essayer
lang='en'
param dansCursor()
par exempletweepy.Cursor(.. lang='en')
OriginalL'auteur Aziz Alto
Vous pouvez voir les arguments en faveur de la piste de la méthode dans le github code https://github.com/tweepy/tweepy/blob/master/tweepy/streaming.py
Mettre les langues dans un tableau de ISO_639-1_codes.
Ils sont:
Afin de suivre en langues vient de mettre:
OriginalL'auteur Walker Rowe