Comment extraire un géocodage de tweet dans un paquet twitteR dans R

Récemment Edwin Chen a affiché une grande carte de la régionale de l'utilisation de bicarbonate de soude vs pop vs coca-cola a créé à partir de géocodées tweets inolving ces mots dans le contexte de la consommation. http://blog.echen.me/2012/07/06/soda-vs-pop-with-twitter/

Il mentionne qu'il a utilisé le twitteR package créé par Jeff Gentry dans R. bien Sûr, il est facile de recueillir des tweets que l'utilisation d'un mot et les mettre dans un dataframe:

require(twitteR)
require(plyr)
cat.tweets<-searchTwitter("cats",n=1000)
tweets.df = ldply(cat.tweets, function(t) t$toDataFrame() )

le dataframe (tweets.df) contiendra l'id utilisateur, le tweet de texte, etc. pour chaque tweet, mais ne semble pas contenir le géocodage. Aucune idée sur la façon d'obtenir dans la R?

source d'informationauteur iantist

geocode r twitter

4

Ne géocodage dire la longitude et la latitude de coordonnées?
Si oui, commandes suivantes fonctionne pour moi.
```
cat.tweets = searchTwitter("cats",n=1000)
tweets.df = do.call("rbind",lapply(cat.tweets,as.data.frame))
```
Source : LIEN

Ive été bricoler avec une fonction R, vous entrez dans le texte de la recherche, le nombre de sites de recherche, et le rayon autour de chaque site. Par exemple twitterMap("#rstats",10,"10mi")voici le code:

twitterMap <- function(searchtext,locations,radius){
require(ggplot2)
require(maps)
require(twitteR)
#radius from randomly chosen location
radius=radius
lat<-runif(n=locations,min=24.446667, max=49.384472)
long<-runif(n=locations,min=-124.733056, max=-66.949778)
#generate data fram with random longitude, latitude and chosen radius
coordinates<-as.data.frame(cbind(lat,long,radius))
coordinates$lat<-lat
coordinates$long<-long
#create a string of the lat, long, and radius for entry into searchTwitter()
for(i in 1:length(coordinates$lat)){
coordinates$search.twitter.entry[i]<-toString(c(coordinates$lat[i],
coordinates$long[i],radius))
}
# take out spaces in the string
coordinates$search.twitter.entry<-gsub(" ","", coordinates$search.twitter.entry ,
fixed=TRUE)
#Search twitter at each location, check how many tweets and put into dataframe
for(i in 1:length(coordinates$lat)){
coordinates$number.of.tweets[i]<-
length(searchTwitter(searchString=searchtext,n=1000,geocode=coordinates$search.twitter.entry[i]))
}
#making the US map
all_states <- map_data("state")
#plot all points on the map
p <- ggplot()
p <- p + geom_polygon( data=all_states, aes(x=long, y=lat, group = group),colour="grey",     fill=NA )
p<-p + geom_point( data=coordinates, aes(x=long, y=lat,color=number.of.tweets
)) + scale_size(name="# of tweets")
p
}
# Example
searchTwitter("dolphin",15,"10mi")

Comment extraire un géocodage de tweet dans un paquet twitteR dans R

Il y a des gros problèmes que j'ai rencontré que je ne suis pas sûr de la façon de traiter avec. Tout d'abord, comme l'écrit le code des recherches de 15 généré de façon aléatoire lieux, ces lieux sont générés à partir d'une distribution uniforme sur le maximum de longitude à l'est des états-unis pour le maximum de l'ouest, et de la latitude plus au nord à l'extrême sud. Cela comprendra des endroits qui ne sont pas aux états-unis, dire juste à l'est du lac des bois, dans le minnesota au Canada. Je voudrais une fonction qui au hasard vérifie pour voir si le générés emplacement est aux états-unis et la jeter si elle ne l'est pas. Plus important encore, je voudrais pour rechercher des milliers d'endroits, mais twitter n'aime pas et me donne un 420 error enhance your calm. Alors peut-être il est préférable de rechercher toutes les quelques heures et lentement construire une base de données et supprimer les doublons de tweets. Enfin, si on choisit une distance sujet populaire, R donne une erreur comme Error in function (type, msg, asError = TRUE) : transfer closed with 43756 bytes remaining to read. Je suis un peu perplexe sur la façon de contourner ce problème.

Ici est un jouet exemple, étant donné que vous pouvez extraire seulement 100 tweets par appel:

require(twitteR)
require(plyr)
URL = paste('http://search.twitter.com/search.atom? 
q=','&geocode=39.724089,-104.820557,3mi','&rpp=100&page=', page, sep='') #Aurora,CO with radii of 3mi
XML = htmlTreeParse(URL, useInternal=TRUE)
entry = getNodeSet(XML, "//entry")
tweets = c()
for (i in 1:99){ 
t = unlist(xpathApply(entry[[i]], "//title", xmlValue))
tweets = c(tweets,t)
}

Cette solution pourrait ne pas être trop élégant, mais j'ai été en mesure d'obtenir les tweets mis en particulier sur le géocodage.

Vous devez vous connecter pour publier un commentaire.