Comment puis-je lire et d'analyser le contenu d'une page web dans la R

J'aimerais lire le contenu d'une URL (e.q., http://www.haaretz.com/) dans R. je me demande comment je peux le faire

OriginalL'auteur Mark | 2009-12-04

html html-content-extraction r screen-scraping

Pas vraiment sûr de savoir comment vous voulez traiter de cette page, parce que c'est vraiment salissant. Comme nous l'avons ré-appris dans cette fameuse question stackoverflow, ce n'est pas une bonne idée de faire un regex sur le code html, de sorte que vous aurez certainement envie d'analyser ce avec le paquet XML.

Voici un exemple pour vous aider à démarrer:

require(RCurl)
require(XML)
webpage <- getURL("http://www.haaretz.com/")
webpage <- readLines(tc <- textConnection(webpage)); close(tc)
pagetree <- htmlTreeParse(webpage, error=function(...){}, useInternalNodes = TRUE)
# parse the tree by tables
x <- xpathSApply(pagetree, "//*/table", xmlValue)  
# do some clean up with regular expressions
x <- unlist(strsplit(x, "\n"))
x <- gsub("\t","",x)
x <- sub("^[[:space:]]*(.*?)[[:space:]]*$", "\", x, perl=TRUE)
x <- x[!(x %in% c("", "|"))]

Il en résulte un caractère de vecteur de surtout tout le texte de la page web (avec un peu de javascript):

> head(x)
[1] "Subscribe to Print Edition"              "Fri., December 04, 2009 Kislev 17, 5770" "Israel Time:Â 16:48Â (EST+7)"           
[4] "Â Â Make Haaretz your homepage"          "/*check the search form*/"               "function chkSearch()"

OOOhhhhh wow ... je suis la démolition d'un site web dynamique et j'ai tout fait dans le passé de 7 à 8 heures et n'était pas en mesure de le faire - celui-ci a fonctionné pour moi. Sauveur de vie

OriginalL'auteur Shane

3

Votre meilleur pari peut être le paquet XML -- voir par exemple cet question précédente.

Mais comment se débarrasser des balises html correctement. Je sais que je peux écrire une RegEx expression, mais est-il un package de rendre le codage moins dramatique!

OriginalL'auteur Dirk Eddelbuettel
2

Je sais que vous avez demandé pour R. Mais peut-être que python+beautifullsoup est la voie à suivre ici? Ensuite, faire votre analyse avec les R que vous avez gratté à l'écran avec beautifullsoup?

OriginalL'auteur Andreas

Vous devez vous connecter pour publier un commentaire.