Comment puis-je lire et d'analyser le contenu d'une page web dans la R
J'aimerais lire le contenu d'une URL (e.q., http://www.haaretz.com/) dans R. je me demande comment je peux le faire
OriginalL'auteur Mark | 2009-12-04
Vous devez vous connecter pour publier un commentaire.
Pas vraiment sûr de savoir comment vous voulez traiter de cette page, parce que c'est vraiment salissant. Comme nous l'avons ré-appris dans cette fameuse question stackoverflow, ce n'est pas une bonne idée de faire un regex sur le code html, de sorte que vous aurez certainement envie d'analyser ce avec le paquet XML.
Voici un exemple pour vous aider à démarrer:
Il en résulte un caractère de vecteur de surtout tout le texte de la page web (avec un peu de javascript):
OriginalL'auteur Shane
Votre meilleur pari peut être le paquet XML -- voir par exemple cet question précédente.
OriginalL'auteur Dirk Eddelbuettel
Je sais que vous avez demandé pour R. Mais peut-être que python+beautifullsoup est la voie à suivre ici? Ensuite, faire votre analyse avec les R que vous avez gratté à l'écran avec beautifullsoup?
OriginalL'auteur Andreas