La sélection de lignes où une colonne a une chaîne de caractères comme 'hsa..' (partielle de la chaîne de match)

J'ai un 371MB fichier texte contenant des micro ARN de données. Essentiellement, je voudrais sélectionner uniquement les lignes qui ont des informations sur les microarn.

J'ai lu dans le fichier à l'aide d'une lecture.table. Habituellement, j'avais à accomplir ce que je veux avec sqldf - si elle avait un "like" de la syntaxe (select * from <> où miRNA comme 'ash'). Malheureusement - sqldf ne prend pas en charge que de la syntaxe.

Comment puis-je le faire dans la R? J'ai regardé autour de stackoverflow et de ne pas voir un exemple de comment je peux faire une chaîne partielle match. J'ai même installé le stringr paquet - mais il n'ont pas tout à fait ce dont j'ai besoin.

Ce que je voudrais faire, c'est quelque chose comme cela - où toutes les lignes où hsa-* sont sélectionnés.

selectedRows <- conservedData[, conservedData$miRNA %like% "hsa-"]

qui, évidemment, n'est pas la syntaxe correcte.

Quelqu'un peut-il m'aider avec cela? Merci beaucoup pour la lecture.

Asda

  • Pouvez-vous poster quelques lignes de vos données, de préférence en utilisant quelque chose comme dput(head(conservedData)).
InformationsquelleAutor Asda | 2012-10-24