extrait une sous-chaîne dans la R selon un modèle

Supposons que j'ai une liste de chaîne de caractères: string = c("G1:E001", "G2:E002", "G3:E003"). Maintenant, j'espère obtenir un vecteur de string qui contient uniquement les parties après les deux-points ":", j'.e substring = c(E001,E002,E003). Est-il un moyen commode dans la R pour ce faire? À l'aide de substr? Merci!

InformationsquelleAutor alittleboy | 2013-06-20

r regex substr

175

Voici quelques façons:

1) sous
```
sub(".*:", "", string)
## [1] "E001" "E002" "E003"
```
2) strsplit
```
sapply(strsplit(string, ":"), "[", 2)
## [1] "E001" "E002" "E003"
```
3) lire.tableau
```
read.table(text = string, sep = ":", as.is = TRUE)$V2
## [1] "E001" "E002" "E003"
```
4) sous-chaîne

Cela suppose deuxième partie commence toujours au niveau de la 4ème personnage (ce qui est le cas dans l'exemple de la question):
```
substring(string, 4)
## [1] "E001" "E002" "E003"
```
4a) sous-chaîne/regex

Si le côlon ne sont pas toujours dans une position connue, nous pourrions modifier (4) en faisant une recherche:
```
substring(string, regexpr(":", string) + 1)
```
5) strapplyc

strapplyc retours entre parenthèses partie:
```
library(gsubfn)
strapplyc(string, ":(.*)", simplify = TRUE)
## [1] "E001" "E002" "E003"
```
6) lire.dcf

Cette une ne fonctionne que si le sous-chaînes avant le côlon sont uniques (ce qu'ils sont dans l'exemple de la question). Aussi il faut que le séparateur d'être colon (qui est dans la question). Si un autre séparateur ont été utilisés, puis nous avons pu utiliser sub de le remplacer par un colon de la première. Par exemple, si le séparateur étaient _ puis string <- sub("_", ":", string)
```
c(read.dcf(textConnection(string)))
## [1] "E001" "E002" "E003"
```
AJOUTÉ. strapplyc et read.dcf solutions.

NOTE.

L'entrée string est supposé être:
```
string <- c("G1:E001", "G2:E002", "G3:E003")
```
- J'ai eu une variable dans un fondu de la table qui avait _ comme séparateur et deux variables distinctes pour le préfixe et le suffixe @Grothendieck réponse: prefix <- sub("_.*", "", variable) et suffix <- sub(".*_", "", variable)
InformationsquelleAutor G. Grothendieck
22

Par exemple à l'aide de gsub ou sub
```
    gsub('.*:(.*)','\',string)
    1] "E001" "E002" "E003"
```
- pourriez-vous explaon ce que sont ces". * ( * et ainsi de suite y faire exactement? Je vais avoir un moment difficile de recréer ce dans un seul et même légèrement différente de la mise en...
- Ce capte et renvoie le groupe de caractères apparaissant après la virgule. Si les chaînes de match sont plus complexes et que vous voulez rester dans la base de R cela fonctionne bien.
InformationsquelleAutor agstudy
9

Voici une autre réponse simple
```
gsub("^.*:","", string)
```
InformationsquelleAutor Ragy Isaac
6

La fin de la partie, mais pour la postérité, le stringr paquet (une partie de la populaire "tidyverse" suite de paquets) fournit maintenant des fonctions ainsi que l'harmonisation des signatures pour la manipulation des chaînes:
```
string <- c("G1:E001", "G2:E002", "G3:E003")
stringr::str_extract(string = string, pattern = "E[0-9]+")
# [1] "E001" "E002" "E003"
```
InformationsquelleAutor CSJCampbell
4

Cela devrait le faire:
```
gsub("[A-Z][1-9]:", "", string)
```
donne
```
[1] "E001" "E002" "E003"
```
- +1! toujours correct si vous supprimez le g de gsub..
InformationsquelleAutor user1981275
1

Si vous utilisez data.table puis tstrsplit() est un choix naturel:
```
tstrsplit(string, ":")[[2]]
[1] "E001" "E002" "E003"
```
InformationsquelleAutor sindri_baldur

Vous devez vous connecter pour publier un commentaire.