Sous-ensemble de données pour contenir uniquement les colonnes dont les noms correspondent à une condition

Est-il un moyen pour moi de sous-ensemble de données de base sur les noms de colonne en commençant par une chaîne de caractères? J'ai quelques colonnes qui sont comme des ABC_1 ABC_2 ABC_3 et certaines, comme la XYZ_1, XYZ_2,XYZ_3 disons.

Comment puis-je sous-ensemble de mon df basée uniquement sur les colonnes contenant les au-dessus des portions de texte (disons, ABC ou XYZ)? Je peux utiliser des indices, mais les colonnes sont trop dispersés dans les données et ça devient trop dur à coder.

Aussi, je veux seulement inclure les lignes de chacun de ces colonnes où leur valeur est >0 ainsi, si l'un des 6 colonnes ci-dessus a une 1 dans la ligne, il fait une coupe dans mon dernier bloc de données.

Quelle langue?! R? Ajoutez le tag ou pas-une suite de R va le voir. Veuillez donner un exemple reproductible, c'est à dire la structure de votre dataframe, de préférence dput( head( df ) ), ou à tout le moins, str( df ).

InformationsquelleAutor | 2013-09-03

r subset

73

Essayer grepl sur les noms de vos data.frame. grepl correspond à une expression régulière pour une cible et renvoie TRUE si une correspondance est trouvée et FALSE autrement. La fonction vectorielle de sorte que vous pouvez passer d'un vecteur de chaînes de match et vous obtiendrez un vecteur de valeurs booléennes retourné.

Exemple
```
#  Data
df <- data.frame( ABC_1 = runif(3),
            ABC_2 = runif(3),
            XYZ_1 = runif(3),
            XYZ_2 = runif(3) )

#      ABC_1     ABC_2     XYZ_1     XYZ_2
#1 0.3792645 0.3614199 0.9793573 0.7139381
#2 0.1313246 0.9746691 0.7276705 0.0126057
#3 0.7282680 0.6518444 0.9531389 0.9673290

#  Use grepl
df[ , grepl( "ABC" , names( df ) ) ]
#      ABC_1     ABC_2
#1 0.3792645 0.3614199
#2 0.1313246 0.9746691
#3 0.7282680 0.6518444

#  grepl returns logical vector like this which is what we use to subset columns
grepl( "ABC" , names( df ) )
#[1]  TRUE  TRUE FALSE FALSE
```
Pour répondre à la deuxième partie, je ferais le sous-ensemble de données.cadre et ensuite en faire un vecteur d'indices de lignes de garder une logique vecteur) comme ça...
```
set.seed(1)
df <- data.frame( ABC_1 = sample(0:1,3,repl = TRUE),
            ABC_2 = sample(0:1,3,repl = TRUE),
            XYZ_1 = sample(0:1,3,repl = TRUE),
            XYZ_2 = sample(0:1,3,repl = TRUE) )

# We will want to discard the second row because 'all' ABC values are 0:
#  ABC_1 ABC_2 XYZ_1 XYZ_2
#1     0     1     1     0
#2     0     0     1     0
#3     1     1     1     0


df1 <- df[ , grepl( "ABC" , names( df ) ) ]

ind <- apply( df1 , 1 , function(x) any( x > 0 ) )

df1[ ind , ]
#  ABC_1 ABC_2
#1     0     1
#3     1     1
```
- c'est un regular expression donc oui. Lire ?regexpr Pour obtenir XYZ ainsi de la chaîne d'ensemble dans le cadre de l'expresison comme ça... grepl( "ABC|XYZ" , names( df ) )
- Merci simon, comment dois-je aussi m'assurer de prendre uniquement les lignes qui sont >valeur 0 pour toutes les colonnes qui correspondent à la chaîne je précise pour les noms de colonne?..ai-je besoin de voir le dataframe que les résultats et ensuite spécifier manuellement?. Si je vois qu'il y a 6 colonnes qui correspondent, devrais-je dire quelque chose comme test<-df[ , grepl( "ABC|XYZ" , les noms de( df ) ) ], puis test< test[c(1:6)>0], ce travail sera?
- c'est une autre question! C'est mauvais de continuer à poser la question dans les commentaires après l'OP a été répondu et il frustre ceux qui répondent. Veuillez poser une nouvelle question, donc tout le monde va le voir. Merci.
- Simon, mais je l'ai déjà que dans ma question si yu voir le dernier paragraphe..
- des excuses. Voir éditer en bas.
- .@SimonO Hanlon - je suis en utilisant grepl() comme data <- data [, !grepl("Unique-",names(data))] de supprimer la colonne où la colonne nom commence par Unique-. Je vois que grepl() ajoute en double nom de colonne avec .1,.2,.3 etc. Est-il possible d'utiliser grepl() sans affecter le nom de la colonne, même si il y a des doublons dans le bloc de données?
InformationsquelleAutor Simon O'Hanlon
21

Vous pouvez également utiliser starts_with et dplyr's select() comme suit:
```
df <- df %>% dplyr:: select(starts_with("ABC"))
```
InformationsquelleAutor basbabybel

À l'aide de dplyr vous pouvez:

df <- df %>% dplyr:: select(grep("ABC", names(df)), grep("XYZ", names(df)))

InformationsquelleAutor Ram B

7

Seulement en cas de data.table les utilisateurs, les ouvrages suivants, pour moi:
```
df[, grep("ABC", names(df)), with = FALSE]
```
InformationsquelleAutor Alex Ho

Cela a fonctionné pour moi:

df[,names(df) %in% colnames(df)[grepl(str,colnames(df))]]

InformationsquelleAutor guero64

Vous devez vous connecter pour publier un commentaire.

Exemple