À l'aide de gsub pour extraire la chaîne de caractères avant de l'espace blanc dans la R

J'ai une liste d'anniversaires qui ressemble à quelque chose comme ceci:

dob <- c("9/9/43 12:00 AM/PM", "9/17/88 12:00 AM/PM", "11/21/48 12:00 AM/PM")

Je veux juste attraper le calendrier la date à partir de cette variable (c'est à dire tout laisser tomber après la première occurrence de white-space).

Voici ce que j'ai essayé jusqu'à présent:

dob.abridged <- substring(dob,1,8)
dob
[1] "9/9/43 1" "9/17/88 " "11/21/48"
dob.abridged <- gsub(" $","", dob.abridged, perl=T)
> dob.abridged
[1] "9/9/43 1" "9/17/88"  "11/21/48"

Donc mon code fonctionne pour le calendrier des dates de longueur 6 ou 7, mais pas de longueur 8. Tous les pointeurs sur une plus efficace regex pour une utilisation avec gsub qui peut gérer les dates du calendrier de longueur 6, 7 ou 8?

Merci.

InformationsquelleAutor Anupa Fabian | 2013-04-09

103

Pas besoin de sous-chaîne, il suffit d'utiliser gsub:
```
gsub( " .*$", "", dob )
# [1] "9/9/43"   "9/17/88"  "11/21/48"
```
Un espace (), alors n'importe quel caractère (.) un nombre quelconque de fois (*) jusqu'à la fin de la chaîne ($). Voir ?regex pour apprendre les expressions régulières.
- Le seul conseil que je peux partager ici, c'est que un sub est suffisante, car il n'y a qu'une seule chaîne en position de fin.
InformationsquelleAutor Romain Francois
14

J'utilise souvent strsplit pour ces sortes de problèmes mais j'ai beaucoup aimé comment de simples Romain a répondu. J'ai pensé qu'il serait intéressant de comparer Romain de la solution à un strsplit réponse:

Voici un strsplit solution:
```
sapply(strsplit(dob, "\\s+"), "[", 1)
```
À l'aide de la microbenchmark paquet et dob <- rep(dob, 1000) avec les données d'origine:
```
Unit: milliseconds
                                    expr       min        lq    median
                   gsub(" .*$", "", dob)  4.228843  4.247969  4.258232
 sapply(strsplit(dob, "\\\\s+"), "[", 1) 14.438241 14.558832 14.634638
        uq       max neval
  4.268029  5.081608  1000
 14.756628 53.344984  1000
```
Le gagnant clair sur un Win 7 machine est le gsub regex de Romain. Merci pour la réponse et l'explication Romain.

InformationsquelleAutor Tyler Rinker
7

La bibliothèque stringr contient une fonction adaptée à ce problème.
```
library(stringr)
word(dob,1)
# [1] "9/9/43"   "9/17/88"  "11/21/48"
```
- La modification de la deuxième argument de -1 extraire le texte à l'issue de la finale de l'espace, qui est ce que je voulais. c'est à dire word(dob,-1)
InformationsquelleAutor tiago

Vous devez vous connecter pour publier un commentaire.