L'obtention de données historiques à partir de Twitter

Pour un projet de recherche que je voudrais obtenir les 3 derniers mois de messages sur Twitter. Les défis techniques, de côté, est-ce possible? en utilisant une sorte de lent mécanisme d'interrogation de maintenir le taux de limiteur à la baie?

L'API Twitter états "les Clients peuvent demander jusqu'à 3 200 statuts via la page de comptage et des paramètres de la timeline API REST" ces par heure? Par jour? ou...jamais?

Des suggestions? Serait-il même être théoriquement possible? A quelqu'un de faire quelque chose de semblable auparavant?

Merci!
Marco

Vue d'ensemble complète: gwu-bibliothèques.github.io/sfm-ui/posts/2017-09-14-twitter-données

OriginalL'auteur Marco | 2009-11-02

5

Twitter notoirement n'est pas "disponible" des tweets de plus de trois semaines. Dans certains cas, vous pouvez seulement obtenir une semaine. Vous êtes mieux de stocker des tweets pour les trois prochains mois. Beaucoup, à juste titre, le doute si ils sont encore conservées par Twitter.

Vous êtes à la recherche pour n'importe tweets? Si oui, découvrez le Streaming API statut/échantillon méthode. Le streaming API utilise persistante HTTP sockets qui peut être une douleur au programme, mais c'est assez gracieux quand vous l'obtenez de travail. Je voudrais recommander la création d'un petit script pour vider les tweets de l'état/de l'échantillon dans une DB. Vous devriez avoir une TONNE de données après seulement quelques jours.

Convenu que vous ne pouvez pas obtenir des données anciennes, mais je ne pense pas que quiconque devrait douter que twitter est l'archivage de tous les derniers tweet, serait fou de ne pas le faire.
Qu'entendez-vous par Many rightly doubt if they're even persisted by Twitter? Les tweets montrent encore sur les profils de plus de 3 semaines, sans l'aide de l'API. Ou suis-je malentendu vous
les tweets sont disponibles, mais pas dans la forme indexée, comme ils apparaissent sur votre maison ou votre hashtag flux.

OriginalL'auteur Ted Pennings
3

Vous pouvez utiliser l'API de Recherche, ne lui donnez pas une recherche, retour le maximum de 100 par page, puis a obtenu par le biais de chaque page deux fois par minute(120 fois par heure - 30 fois moins que la limite de taux). Cependant, si mes calculs sont corrects, cela pourrait éventuellement vous donner 720,000 tweets d'une heure..... le problème, c'est que Twitter a ajouté environ 1,75 milliard de tweets sur les 3 derniers mois. Donc, si mes calculs sont exacts, il vous faudra 2361 jours, ou 6 ans pour le terminer.

Vous poser cette question sur le Développement de Twitter en parler sur Google groups, ou contacter Twitter pour obtenir la liste blanche de sorte que vous pourrait faire jusqu'à 20 000 demandes d'une heure.

Personnellement, je ne pense pas que c'est possible.

Alors, dans ce cas, c'est plus d'un -obtenir autant que possible, et de prendre en compte l'estimation du pourcentage qui n'est pas sous-évaluées? je suis dans la liste blanche, de sorte qu'il serait probablement prendre environ 20 jours alors si je voudrais faire tous...en théorie.
Je crois que l'api de recherche uniquement remonte de 6 à 8 jours de données.

OriginalL'auteur Ryan Alford
1

DataSift prétend avoir un compte twitter historique des données de l'api à venir prochainement, vous pouvez vous inscrire pour être averti lorsque de ses ici.

OriginalL'auteur studgeek
0

Ce n'existait pas lorsque vous d'abord posé la question, mais le "PeopleBrowsr" API est parfait pour cela et vous pouvez revenir en arrière 1400 jours avec un seul appel d'API: https://developer.peoplebrowsr.com/pb

Espère que ça aide!

OriginalL'auteur martinedwards
0

Trou de la serrure, vous pouvez obtenir en historique des tweets en xls ou de les présenter dans un tableau de bord visuel. L'aperçu des exemples un peu plus récents tweets, cependant, vous pouvez demander l'historique des données si vous leur envoyer un mail.

Voir: http://keyhole.co/conversation_tracking

OriginalL'auteur minaz
0

Vous pouvez lire le compte twitter de l'historique des données à l'aide de Gnip Historique de la PowerTrack de l'outil. Il vous donnera accès à toutes les données de twitter depuis le premier tweet et équitable, il est très simple outil t utilisez.

OriginalL'auteur svk
-1

Vous pouvez obtenir gratuitement des estimations de l'étendue de données et les coûts en utilisant un service construit par mon entreprise appelée L'utilitaire Sifter. Si vous décidez d'acheter l'accès aux données qu'il sera disponible via notre plate-forme d'analyse de texte DiscoverText, où vous pouvez rechercher, filtrer, de dupliquer, de cluster, l'homme de code, et la machine-classer les données.

OriginalL'auteur Stu Shulman

Vous devez vous connecter pour publier un commentaire.