Comment puis-je voir toutes les notes d'un Tumblr poste de Python?
Dire que je regarde la suite Tumblr post: http://ronbarak.tumblr.com/post/40692813...
Il (actuellement) a 292 notes.
Je voudrais obtenir tous au-dessus de notes à l'aide d'un script Python (par exemple, via urllib2, BeautifulSoup, simplejson, ou tumblr Api).
Certains de vastes recherches sur Google n'a pas produit tous les éléments se rapportant aux notes d'extraction dans Tumblr.
Quelqu'un peut me pointer dans la bonne direction sur l'outil qui me permettra de le faire?
OriginalL'auteur user1850727 | 2013-01-19
Vous devez vous connecter pour publier un commentaire.
Ressemble malheureusement comme le Tumblr de l'API a certaines limites (manque de méta-informations sur les Reblogs, notes limitée par 50), de sorte que vous ne peut pas obtenir toutes les notes.
Il est également interdit de faire la page de raclage selon la Conditions de Service.
Source:
https://groups.google.com/forum/?fromgroups=#!topic/tumblr-api/ktfMIdJCOmc
as defined below
Où est la définition de l'expression, mais? Je ne le trouve pas...OriginalL'auteur Fábio Hiroki
Sans JS vous obtenez distinct des pages qui ne contiennent que les notes. Du blog la première page serait:
Pages suivantes sont liées à la partie inférieure, par exemple:
(Voir ma réponse sur la façon de trouver l'URL suivante dans
a
’sonclick
attribut.)Maintenant, vous pouvez utiliser divers outils à télécharger/analyser les données.
Suivantes pour la commande wget télécharger l'ensemble de vos pages de notes pour le poste:
OriginalL'auteur unor
Comme Fabio implique, il est préférable d'utiliser l'API.
Si pour une raison quelconque, vous ne pouvez pas, alors les outils que vous utiliserez dépendra de ce que vous voulez faire avec les données dans les posts.
Tumblr schéma d'url est simple: url/régime/1, url/régime/2, url/régime/3, etc... jusqu'à ce que vous obtenez à la fin de l'postes et les serveurs ne renvoie pas de données plus.
Donc, si vous allez à la force brute de votre façon de grattage, vous pouvez facilement faire votre script pour vider toutes les données sur votre disque dur jusqu'à ce que, dire le contenu de la balise est vide.
Un dernier conseil, n'oubliez pas de mettre un petit sleep(1000) dans votre script, parce que vous pourriez mettre un peu de stress sur Tumblr serveurs.
Vous êtes les bienvenus User1850727. Je l'ai appelé grattage parce que tant que vous n'êtes pas en utilisant tumblr api, vous aurez besoin d'obtenir le contenu avant de l'analyser. Vous pouvez utiliser urllib pour obtenir tous les données, puis utiliser un des ci-dessus pour choisir votre choisir. Veuillez garder à l'esprit @Fabio commentaire à propos de la Cdu.
OriginalL'auteur Lynx-Lab
comment charger toutes les notes sur tumblr? couvre également le sujet, mais l'unor réponse (ci-dessus) le fait très bien.
OriginalL'auteur Albert