R tm paquet d'entrée non valide dans 'utf8towcs'

Je suis en train d'utiliser le tm package R pour effectuer certaines d'analyse de texte. J'ai attaché les suivantes:

require(tm)
dataSet <- Corpus(DirSource('tmp/'))
dataSet <- tm_map(dataSet, tolower)
Error in FUN(X[[6L]], ...) : invalid input 'RT @noXforU Erneut riesiger (Alt-)�lteppich im Golf von Mexiko (#pics vom Freitag) http://bit.ly/bw1hvU http://bit.ly/9R7JCf #oilspill #bp' in 'utf8towcs'

Le problème est que certains personnages ne sont pas valides. J'aimerais exclure les caractères non valides à partir de l'analyse que ce soit dans R ou avant d'importer les fichiers pour le traitement.

J'ai essayé d'utiliser iconv pour convertir tous les fichiers utf-8 et d'exclure tout ce qui ne peut pas être convertie comme suit:

find . -type f -exec iconv -t utf-8 "{}" -c -o tmpConverted/"{}" \; 

comme l'a souligné ici Convertir par lots latin-1 fichiers utf-8 à l'aide d'iconv

Mais j'obtiens toujours la même erreur.

J'apprécierais toute aide.

InformationsquelleAutor maiaini | 2012-03-09