R tm paquet d'entrée non valide dans 'utf8towcs'

Je suis en train d'utiliser le tm package R pour effectuer certaines d'analyse de texte. J'ai attaché les suivantes:

require(tm)
dataSet <- Corpus(DirSource('tmp/'))
dataSet <- tm_map(dataSet, tolower)
Error in FUN(X[[6L]], ...) : invalid input 'RT @noXforU Erneut riesiger (Alt-)�lteppich im Golf von Mexiko (#pics vom Freitag) http://bit.ly/bw1hvU http://bit.ly/9R7JCf #oilspill #bp' in 'utf8towcs'

Le problème est que certains personnages ne sont pas valides. J'aimerais exclure les caractères non valides à partir de l'analyse que ce soit dans R ou avant d'importer les fichiers pour le traitement.

J'ai essayé d'utiliser iconv pour convertir tous les fichiers utf-8 et d'exclure tout ce qui ne peut pas être convertie comme suit:

find . -type f -exec iconv -t utf-8 "{}" -c -o tmpConverted/"{}" \;

comme l'a souligné ici Convertir par lots latin-1 fichiers utf-8 à l'aide d'iconv

Mais j'obtiens toujours la même erreur.

J'apprécierais toute aide.

InformationsquelleAutor maiaini | 2012-03-09

iconv r text-mining utf-8

57

Aucune des réponses ci-dessus, a travaillé pour moi. La seule façon de contourner ce problème est de supprimer tous les non des caractères graphiques (http://stat.ethz.ch/R-manual/R-patched/library/base/html/regex.html).

Le code est ce simple
```
usableText=str_replace_all(tweets$text,"[^[:graph:]]", " ") 
```
- Ce doit être marquée comme étant la solution. Il fonctionne, et il a été populaire pendant des années, mais l'OP ne collent pas autour de le marquer comme étant correcte.
- comme une alternative à l'aide de la base de r, vous pouvez essayer: usableText <- iconv(tweets$text, "ASCII", "UTF-8", sub="")
InformationsquelleAutor David
24

C'est à partir de la tm faq:

il remplacera non convertibles octets dans yourCorpus avec des chaînes
montrant leurs codes hex.

J'espère que cette aide, pour moi, il n'.
```
tm_map(yourCorpus, function(x) iconv(enc2utf8(x), sub = "byte"))
```
http://tm.r-forge.r-project.org/faq.html

InformationsquelleAutor user1374611
13

Je pense qu'il est clair maintenant que le problème est en raison de la émoticônes que tolower n'est pas en mesure de comprendre
```
#to remove emojis
dataSet <- iconv(dataSet, 'UTF-8', 'ASCII')
```
InformationsquelleAutor Saurabh Yadav
10

Je viens d'aller à l'encontre de ce problème. Par chance vous utilisez un ordinateur fonctionnant sous OSX? Je suis et semblent avoir retracé le problème de la définition du jeu de caractères que le R est compilé contre sur ce système d'exploitation (voir https://stat.ethz.ch/pipermail/r-sig-mac/2012-July/009374.html)

Ce que je voyais, c'est que l'utilisation de la solution de la FAQ
```
tm_map(yourCorpus, function(x) iconv(enc2utf8(x), sub = "byte"))
```
me donnait cet avertissement:
```
Warning message:
it is not known that wchar_t is Unicode on this platform 
```
Ce j'ai tracé à la enc2utf8 fonction. La mauvaise nouvelle, c'est que c'est un problème avec mon OS sous-jacent et pas R.

Voici donc ce que j'ai fait un travail autour de:
```
tm_map(yourCorpus, function(x) iconv(x, to='UTF-8-MAC', sub='byte'))
```
Cette forces iconv pour utiliser le codage utf8 sur le macintosh et fonctionne très bien sans avoir besoin de recompiler.

InformationsquelleAutor Kenton
4

J'ai été l'exécution de ce sur Mac et ma frustration,j'ai eu à identifier la faute d'enregistrement (comme c'étaient des tweets) à résoudre. Depuis, la prochaine fois, il n'y a pas de garantie de l'enregistrement étant les mêmes, j'ai utilisé la fonction suivante
```
tm_map(yourCorpus, function(x) iconv(x, to='UTF-8-MAC', sub='byte'))
```
comme suggéré ci-dessus.

Il a travaillé comme un charme

InformationsquelleAutor Krishna Vedula

C'est un problème commun avec la tm paquet (Un, Deux, Trois).

Un non-R moyen pour résoudre ce problème est d'utiliser un éditeur de texte pour rechercher et remplacer tous les caractères de fantaisie (ie. ceux avec les signes diacritiques) dans votre texte avant de le charger dans R (ou utilisez gsub dans R). Par exemple, vous seriez de rechercher et de remplacer toutes les instances de l'O-tréma dans Öl-Teppich. D'autres ont eu du succès avec ce (que j'ai aussi), mais si vous avez des milliers de fichiers texte, évidemment, ce n'est pas bon.

Pour un R solution, j'ai trouvé que l'utilisation de VectorSource au lieu de DirSource semble résoudre le problème:

# I put your example text in a file and tested it with both ANSI and 
# UTF-8 encodings, both enabled me to reproduce your problem
#
tmp <- Corpus(DirSource('C:\\...\\tmp/'))
tmp <- tm_map(dataSet, tolower)
Error in FUN(X[[1L]], ...) : 
  invalid input 'RT @noXforU Erneut riesiger (Alt-)Öl–teppich im Golf von Mexiko (#pics vom Freitag) http://bit.ly/bw1hvU http://bit.ly/9R7JCf #oilspill #bp' in 'utf8towcs'
# quite similar error to what you got, both from ANSI and UTF-8 encodings
#
# Now try VectorSource instead of DirSource
tmp <- readLines('C:\\...\\tmp.txt') 
tmp
[1] "RT @noXforU Erneut riesiger (Alt-)Öl–teppich im Golf von Mexiko (#pics vom Freitag) http://bit.ly/bw1hvU http://bit.ly/9R7JCf #oilspill #bp"
# looks ok so far
tmp <- Corpus(VectorSource(tmp))
tmp <- tm_map(tmp, tolower)
tmp[[1]]
rt @noxforu erneut riesiger (alt-)öl–teppich im golf von mexiko (#pics vom freitag) http://bit.ly/bw1hvu http://bit.ly/9r7jcf #oilspill #bp
# seems like it's worked just fine. It worked for best for ANSI encoding. 
# There was no error with UTF-8 encoding, but the Ö was returned 
# as ã– which is not good

Mais cela semble être un peu une coïncidence heureuse. Il doit y avoir une façon plus directe à ce sujet. Faites-nous savoir ce qui fonctionne pour vous!

Merci pour votre réponse Ben! Pour une raison quelconque, la même ligne de code qui a échoué pour moi fonctionne maintenant. Je ne sais pas si c'est une autre coïncidence heureuse 🙂 je n'ai rien changé, juste relancez-le et cette fois, il fonctionne sans aucun problème.

InformationsquelleAutor Ben

L'ancien suggestions ne fonctionne pas pour moi. J'ai étudié plus et trouvé celui qui a travaillé dans la suite de https://eight2late.wordpress.com/2015/05/27/a-gentle-introduction-to-text-mining-using-r/

#Create the toSpace content transformer
toSpace <- content_transformer(function(x, pattern) {return (gsub(pattern," ",
x))})
# Apply it for substituting the regular expression given in one of the former answers by " "
your_corpus<- tm_map(your_corpus,toSpace,"[^[:graph:]]")

# the tolower transformation worked!
your_corpus <- tm_map(your_corpus, content_transformer(tolower))

InformationsquelleAutor vicarizmendi

2

J'ai souvent ce problème et ce Débordement de Pile post est toujours ce qui arrive en premier. J'ai utilisé la solution devant, mais il peut bande de personnages et de les remplacer avec des déchets (comme la conversion de it’s à itâ€™s).

J'ai trouvé qu'il y est en fait une bien meilleure solution pour cela! Si vous installez le stringi package, vous pouvez remplacer tolower() avec stri_trans_tolower() et puis tout devrait fonctionner correctement.

InformationsquelleAutor Jacqueline Nolis

Utilisez les étapes suivantes:

# First you change your document in .txt format with encoding UFT-8
library(tm)
# Set Your directoryExample ("F:/tmp").
dataSet <- Corpus(DirSource ("/tmp"), readerControl=list(language="english)) # "/tmp" is your directory. You can use any language in place of English whichever allowed by R.
dataSet <- tm_map(dataSet, tolower)

Inspect(dataSet)

InformationsquelleAutor Ashutosh Agrahari

Si c'est ok pour ignorer non valide les entrées, vous pouvez utiliser le R de la gestion des erreurs. e.g:

  dataSet <- Corpus(DirSource('tmp/'))
  dataSet <- tm_map(dataSet, function(data) {
     #ERROR HANDLING
     possibleError <- tryCatch(
         tolower(data),
         error=function(e) e
     )

     # if(!inherits(possibleError, "error")){
     #   REAL WORK. Could do more work on your data here,
     #   because you know the input is valid.
     #   useful(data); fun(data); good(data);
     # }
  })

Il est un exemple supplémentaire ici: http://gastonsanchez.wordpress.com/2012/05/29/catching-errors-when-using-tolower/

InformationsquelleAutor Rose Perrone

La FAQ officielle semble être pas de travail dans ma situation:

tm_map(yourCorpus, function(x) iconv(x, to='UTF-8-MAC', sub='byte'))

Enfin je l'ai fait à l'aide de la for & fonction d'Encodage:

for (i in 1:length(dataSet))
{
  Encoding(corpus[[i]])="UTF-8"
}
corpus <- tm_map(dataSet, tolower)

InformationsquelleAutor pudding

0

Du tchad solution ne fonctionnait pas pour moi. J'ai eu ce intégrés dans une fonction, et il était en train de donner une erreur sur iconv neededing un vecteur en entrée. Donc, j'ai décidé de faire la conversion avant la création du corpus.
```
myCleanedText <- sapply(myText, function(x) iconv(enc2utf8(x), sub = "byte"))
```
InformationsquelleAutor Francisco Marco-Serrano
0

J'ai été en mesure de le réparer par la conversion des données au format texte brut à l'aide de cette ligne de code

corpus <- tm_map(corpus, PlainTextDocument)

merci à l'utilisateur https://stackoverflow.com/users/4386239/paul-gowder

pour sa réponse ici

https://stackoverflow.com/a/29529990/815677

InformationsquelleAutor Krishna

Vous devez vous connecter pour publier un commentaire.