Sous-ensemble des données /de l'extraction des données basée sur les 7 premières lettres

J'ai un énorme ensemble de données avec génotypique des informations provenant de différentes populations. Je voudrais trier les données en fonction de la population, mais je ne sais pas comment.

Je voudrais trier par "pedigree_dhl". J'ai été en utilisant le code suivant, mais j'ai continué à obtenir des messages d'erreur.

newdata <- project[pedigree_dhl == CCB133$*1,  ]

Mon problème est également que "pedigree-dhl' contient tous les noms des différents génotypes. Seules les 7 premières lettres dans la colonne "pedigree-dhl" sont le nom de la population.Dans cet exemple:CCB133. Comment puis-je dire R, que je veux extraire les données pour toutes les colonnes qui contiennent des CCB133?

  Allele1 Allele2      SNP_name gs_entry pedigree_dhl
1       T       T ZM011407_0151      656    CCB133$*1
2       T       T ZM009374_0354      656    CCB133$*1
3       C       C ZM003499_0591      656    CCB133$*1
4       A       A ZM003898_0594      656    CCB133$*1
5       C       C ZM004887_0313      656    CCB133$*1
6       G       G ZM000583_1096      656    CCB133$*1
substr vous permet d'extraire des sous-chaînes de caractères vectorielles. Vous aurez envie de vous assurer que votre colonne est en fait un caractère de vecteur et non un facteur avant d'utiliser substr ou vous pouvez obtenir des résultats inattendus. Pour., recherche pour R subset et vous trouverez de nombreuses réponses. Le subset() fonction elle-même est assez utile pour la session interactive, tout en utilisant la [ opérateur est préférable dans certaines situations.

OriginalL'auteur marie | 2012-04-25