R supprimer les mots vides à partir d'un caractère de vecteur à l'aide de %en%

J'ai un bloc de données avec des chaînes que je voudrais supprimer les mots vides de. J'essaie d'éviter d'utiliser le tm paquet comme c'est un grand ensemble de données et tm semble fonctionner un peu lentement. Je suis l'aide de la tm stopword dictionnaire.

library(plyr)
library(tm)

stopWords <- stopwords("en")
class(stopWords)

df1 <- data.frame(id = seq(1,5,1), string1 = NA)
head(df1)
df1$string1[1] <- "This string is a string."
df1$string1[2] <- "This string is a slightly longer string."
df1$string1[3] <- "This string is an even longer string."
df1$string1[4] <- "This string is a slightly shorter string."
df1$string1[5] <- "This string is the longest string of all the other strings."

head(df1)
df1$string1 <- tolower(df1$string1)
str1 <-  strsplit(df1$string1[5], " ")

> !(str1 %in% stopWords)
[1] TRUE

Ce n'est pas la réponse que je cherche. Je vais essayer d'obtenir un vecteur ou d'une chaîne de mots qui ne sont PAS dans le stopWords vecteur.

Ce que je fais mal?

Le problème est évident: string nbr 5 est grammaticalement incorrect. 🙂 . Ok, bien, je pense que Arun e bonne voie, en supposant que "mot" correspond à une chaîne de caractères sans les espaces. Après l'exécution de son code sur tous les éléments de df1$string, vous pourriez faire unique si vous voulez juste une liste, pas des quantités, des mots.

OriginalL'auteur screechOwl | 2013-03-06

12

Vous n'êtes pas accès à la liste correctement et que vous êtes de ne pas obtenir les éléments de la suite de %in% (ce qui donne une logique vecteur de VRAI/FAUX). Vous devriez faire quelque chose comme ceci:
```
unlist(str1)[!(unlist(str1) %in% stopWords)]
```
(ou)
```
str1[[1]][!(str1[[1]] %in% stopWords)]
```
Pour l'ensemble de la data.frame df1, vous pourriez faire quelque chose comme:
```
'%nin%' <- Negate('%in%')
lapply(df1[,2], function(x) {
    t <- unlist(strsplit(x, " "))
    t[t %nin% stopWords]
})

# [[1]]
# [1] "string"  "string."
# 
# [[2]]
# [1] "string"   "slightly" "string." 
# 
# [[3]]
# [1] "string"  "string."
# 
# [[4]]
# [1] "string"   "slightly" "shorter"  "string." 
# 
# [[5]]
# [1] "string"   "string"   "strings."
```
Je ne savais pas str1 est sortie comme une liste, j'ai supposé que c'était un vecteur, merci.
Merci pour l'aide Negate -- j'avais complètement oublié la funprog suite de goodies.
À l'aide de setdiff serait encore plus simple, et vous devriez probablement utiliser lapply sur les résultats de strsplit: lapply(strsplit(df1$string, " "), setdiff, stopWords). Le seul inconvénient est que vous obtenez un unique les mots.
setdiff appels %in% (exactement match(x, y, 0L) == 0L).

OriginalL'auteur Arun

Premier. Vous devriez unlist str1 ou de l'utilisation lapply si str1 est un vecteur:

!(unlist(str1) %in% words)
#>  [1]  TRUE  TRUE FALSE FALSE  TRUE  TRUE FALSE FALSE FALSE FALSE  TRUE

Seconde. Solution complexe:

string <- c("This string is a string.",
            "This string is a slightly longer string.",
            "This string is an even longer string.",
            "This string is a slightly shorter string.",
            "This string is the longest string of all the other strings.")
rm_words <- function(string, words) {
    stopifnot(is.character(string), is.character(words))
    spltted <- strsplit(string, " ", fixed = TRUE) # fixed = TRUE for speedup
    vapply(spltted, function(x) paste(x[!tolower(x) %in% words], collapse = " "), character(1))
}
rm_words(string, tm::stopwords("en"))
#> [1] "string string."                  "string slightly longer string."  "string even longer string."     
#> [4] "string slightly shorter string." "string longest string strings."

OriginalL'auteur Artem Klevtsov

Vous devez vous connecter pour publier un commentaire.