La sélection de lignes où une colonne a une chaîne de caractères comme 'hsa..' (partielle de la chaîne de match)

J'ai un 371MB fichier texte contenant des micro ARN de données. Essentiellement, je voudrais sélectionner uniquement les lignes qui ont des informations sur les microarn.

J'ai lu dans le fichier à l'aide d'une lecture.table. Habituellement, j'avais à accomplir ce que je veux avec sqldf - si elle avait un "like" de la syntaxe (select * from <> où miRNA comme 'ash'). Malheureusement - sqldf ne prend pas en charge que de la syntaxe.

Comment puis-je le faire dans la R? J'ai regardé autour de stackoverflow et de ne pas voir un exemple de comment je peux faire une chaîne partielle match. J'ai même installé le stringr paquet - mais il n'ont pas tout à fait ce dont j'ai besoin.

Ce que je voudrais faire, c'est quelque chose comme cela - où toutes les lignes où hsa-* sont sélectionnés.

selectedRows <- conservedData[, conservedData$miRNA %like% "hsa-"]

qui, évidemment, n'est pas la syntaxe correcte.

Quelqu'un peut-il m'aider avec cela? Merci beaucoup pour la lecture.

Asda

Pouvez-vous poster quelques lignes de vos données, de préférence en utilisant quelque chose comme dput(head(conservedData)).

InformationsquelleAutor Asda | 2012-10-24

match r string

125

Je remarque que vous mentionnez une fonction %like% dans votre approche actuelle. Je ne sais pas si c'est une référence à la %like% de données".tableau", mais si elle l'est, vous pouvez certainement l'utiliser comme suit.

Remarque que l'objet n'a pas à être un data.table (mais rappelez-vous aussi que subsetting approches pour data.frames et data.tables ne sont pas identiques):
```
library(data.table)
mtcars[rownames(mtcars) %like% "Merc", ]
iris[iris$Species %like% "osa", ]
```
Si c'est ce que vous avez eu, alors peut-être vous avez eu tout mélangé de ligne et de colonne positions pour subsetting de données.

Si vous ne voulez pas charger un package, vous pouvez essayer d'utiliser grep() à la recherche de la chaîne que vous êtes correspondant. Voici un exemple avec le mtcars dataset, où nous sommes correspondance de toutes les lignes où les noms de ligne comprend "Mercenaire":
```
mtcars[grep("Merc", rownames(mtcars)), ]
             mpg cyl  disp  hp drat   wt qsec vs am gear carb
# Merc 240D   24.4   4 146.7  62 3.69 3.19 20.0  1  0    4    2
# Merc 230    22.8   4 140.8  95 3.92 3.15 22.9  1  0    4    2
# Merc 280    19.2   6 167.6 123 3.92 3.44 18.3  1  0    4    4
# Merc 280C   17.8   6 167.6 123 3.92 3.44 18.9  1  0    4    4
# Merc 450SE  16.4   8 275.8 180 3.07 4.07 17.4  0  0    3    3
# Merc 450SL  17.3   8 275.8 180 3.07 3.73 17.6  0  0    3    3
# Merc 450SLC 15.2   8 275.8 180 3.07 3.78 18.0  0  0    3    3
```
Et, autre exemple, à l'aide de la iris dataset pour la recherche de la chaîne de osa:
```
irisSubset <- iris[grep("osa", iris$Species), ]
head(irisSubset)
#   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
# 1          5.1         3.5          1.4         0.2  setosa
# 2          4.9         3.0          1.4         0.2  setosa
# 3          4.7         3.2          1.3         0.2  setosa
# 4          4.6         3.1          1.5         0.2  setosa
# 5          5.0         3.6          1.4         0.2  setosa
# 6          5.4         3.9          1.7         0.4  setosa
```
Pour votre problème, essayez:
```
selectedRows <- conservedData[grep("hsa-", conservedData$miRNA), ]
```
- +1: notez également que grep prend en charge les expressions régulières, de sorte que vous pouvez grep pour ^hsa- à la place.
- en fait, grep vient de l'ed de commande g/re/p (global / expression régulière / impression), et il révèle son pouvoir réel de la maîtrise de l'expression régulière-fu ;-): en.wikipedia.org/wiki/Grep
- Le %comme% suggestion est excellente! Je vous recommande de le mettre en haut de votre réponse.
- fait. Peut-être que ça va m'aider à en trouver un autre 11 voix pour que je puisse obtenir un nouveau chapeau avant la fin de l'année 🙂
InformationsquelleAutor A5C1D2H2I1M1N2O1R2T1
50

Essayer str_detect() de la stringr paquet, qui détecte la présence ou l'absence d'un motif dans une chaîne de caractères.

Ici est une approche qui intègre également la %>% pipe et filter() de la dplyr package:
```
library(stringr)
library(dplyr)

CO2 %>%
  filter(str_detect(Treatment, "non"))

   Plant        Type  Treatment conc uptake
1    Qn1      Quebec nonchilled   95   16.0
2    Qn1      Quebec nonchilled  175   30.4
3    Qn1      Quebec nonchilled  250   34.8
4    Qn1      Quebec nonchilled  350   37.2
5    Qn1      Quebec nonchilled  500   35.3
...
```
Cela permet de filtrer l'échantillon de CO2 de l'ensemble de données (qui vient avec R) pour les lignes où le Traitement variable contient la sous-chaîne "non". Vous pouvez ajuster si str_detect trouve fixe les matchs ou utilise une regex consultez la documentation du stringr paquet.
- Vous pouvez également utiliser le trc_detect fonction comme ceci myDataFrame[str_detect(myDataFrame$key, myKeyPattern),]
InformationsquelleAutor Sam Firke
19

LIKE devraient travailler en sqlite:
```
require(sqldf)
df <- data.frame(name = c('bob','robert','peter'),id=c(1,2,3))
sqldf("select * from df where name LIKE '%er%'")
    name id
1 robert  2
2  peter  3
```
- SQLDF est meilleur pour l'inscription. Toutefois, il ne peut pas supprimer des lignes.
- Pourquoi un package R en cours de chargement avec require() ici
- Parce qu'il n'est pas de série R de la bibliothèque et vous devez l'installer manuellement et ensuite chargez à l'aide d' require fonction.
InformationsquelleAutor user1609452

Vous devez vous connecter pour publier un commentaire.