Retrait de signes de ponctuation du texte à l'aide de R
J'ai besoin de supprimer la ponctuation du texte. Je suis tm paquet, mais le hic, c'est :
par exemple: le texte est quelque chose comme ceci:
data <- "I am a, new comer","to r,"please help","me:out","here"
maintenant quand je lance
library(tm)
data<-removePunctuation(data)
dans mon code, le résultat est :
I am a new comerto rplease helpmeouthere
mais ce que j'attends est:
I am a new comer to r please help me out here
data<-"I am a, new comer","to r,"please help","me:out","here"
est syntaxe non valide dans R, pouvez-vous faire de cette reproductible? Êtes-vous à l'aide dec
et ce sont plusieurs cordes? Ou c'est juste une longue chaîne de caractères (à en juger par votre sortie désirée). De toute façon, vous pouvez essayer quelque chose commegsub("[[:punct:]]", " ", data)
pour les débutants.
Vous devez vous connecter pour publier un commentaire.
Voici comment je prends à votre question, et une réponse qui est très proche de @David Arenburg dans le commentaire ci-dessus.
L'espace supplémentaire après [:punct:], consiste à ajouter des espaces à la chaîne et le + correspond à un ou plusieurs séquentielle des éléments dans l'expression régulière. Cela a pour effet de bord, souhaitable dans certains cas, de réduire toute séquence d'espaces en un seul espace.
gsub("[[:punct:][:blank:]]+", " ", data)
serait plus approprié.Si vous aviez quelque chose comme
Vous pourriez faire ceci:
Il remplace le "," avec "les" dans la variable appelée chaîne de