Données de sous-ensemble basées sur la correspondance partielle des noms de colonnes

J'ai besoin d'un sous-ensemble de df pour inclure certaines chaînes. Certains de ces sont pleins de noms de colonnes, et le suivant fonctionne très bien:

testData[,c("FullColName1","FullColName2","FullColName3")]

Mon problème est que j'ai besoin de développer ce qui comprend également les noms de colonnes qui contiennent des chaînes de caractères spécifiques qui peuvent partiellement correspondre à certains autres noms de colonne. Ces chaînes inclure des lettres et des symboles:

"PartString1()","PartString2()"

J'ai essayé de mettre des caractères génériques autour de ces. (Je l'ai indiqué ci-dessous, avec le préfixe "star" parce que le symbole "*" ne pas s'afficher correctement.)

testData[ ,c("FullColName1","FullColName2","FullColName3",
             "starPartString1()star","starPartString2()star")]

Mais j'obtiens un message d'erreur: undefined colonnes sélectionnées. Je ne peux pas savoir si ou comment j'ai besoin de grep pour faire ce travail.

source d'informationauteur user3614783

r subset

Vous avez mentionné que vous cherchez peut-être des symboles, donc, pour cet exemple, nous pouvons utiliser [[:punct:]] que notre expression régulière. Cela permettra de trouver toutes les cordes avec les symboles de ponctuation dans les noms de colonnes.

d <- data.frame(1:3, 3:1, 11:13, 13:11, rep(1, 3))
names(d) <- c("FullColName1", "FullColName2", "FullColName3",
              "PartString1()","PartString2()")

d[grepl("[[:punct:]]", names(d))]
#   PartString1() PartString2()
# 1            13             1
# 2            12             1
# 3            11             1

Cette dernière partie illustre simplement une autre façon de le faire avec d'autres fonctions de traitement de chaîne de stringr

library(stringr)
d[str_detect(names(d), "[[:punct:]]")]
#   PartString1() PartString2()
# 1            13             1
# 2            12             1
# 3            11             1

AJOUTER par OPs commentaire

d[grepl("ring[12()]", names(d))]

à obtenir soit des sous-chaînes ring1() ou ring2() le nom de vecteur

Vous pouvez utiliser grep de trouver des indices de noms de colonnes avec correspondance partielle à un modèle particulier

require(PerformanceAnalytics)
data(managers)

colnames(managers)
#[1] "HAM1"        "HAM2"        "HAM3"        "HAM4"        "HAM5"       
#[6] "HAM6"        "EDHEC LS EQ" "SP500 TR"    "US 10Y TR"   "US 3m TR"

supposons que le motif que vous voulez de match est "JAMBON", ainsi que certains noms de colonne ("SP500 TR" "NOUS 10Y TR" "NOUS 3m TR")

head(managers[,c("SP500 TR","US 10Y TR","US 3m TR",colnames(managers)[grep("HAM",colnames(managers))])])
#           SP500 TR US 10Y TR US 3m TR    HAM1 HAM2    HAM3    HAM4 HAM5 HAM6
#1996-01-31   0.0340   0.00380  0.00456  0.0074   NA  0.0349  0.0222   NA   NA
#1996-02-29   0.0093  -0.03532  0.00398  0.0193   NA  0.0351  0.0195   NA   NA
#1996-03-31   0.0096  -0.01057  0.00371  0.0155   NA  0.0258 -0.0098   NA   NA
#1996-04-30   0.0147  -0.01739  0.00428 -0.0091   NA  0.0449  0.0236   NA   NA
#1996-05-31   0.0258  -0.00543  0.00443  0.0076   NA  0.0353  0.0028   NA   NA
#1996-06-30   0.0038   0.01507  0.00412 -0.0039   NA -0.0303 -0.0019   NA   NA

vous pouvez spécifier plusieurs modèles à l'aide d', grep("pattern1 | pattern2 ", colnames(data))

Vous pouvez utiliser grepl pour une recherche par nom de colonne. Il renvoie à une logique vecteur indiquant les matchs.

Voici un exemple:

d <- read.table(header=TRUE, check.names=FALSE,
                text="1PartString()2 1PartString()3 OtherCol
                1 2 3
                3 4 5")
d
##   1PartString()2 1PartString()3 OtherCol
## 1              1              2        3
## 2              3              4        5

d[,grepl("PartString\\(\\)", names(d))]
##   1PartString()2 1PartString()3
## 1              1              2
## 2              3              4

grepl vérifier pour voir si le motif est présent partout dans le nom, donc un générique n'est pas nécessaire.

Vous devez vous connecter pour publier un commentaire.