comment lire FASTA dans les données et extraire les sous-séquences du fichier FASTA dans R
J'ai un petit fichier fasta de séquences d'ADN qui ressemble à ceci:
>NM_000016 700 200 234
ACATATTGGAGGCCGAAACAATGAGGCGTGATCAACTCAGTATATCAC
>NM_000775 700 124 236
CTAACCTCTCCCAGTGTGGAACCTCTATCTCATGAGAAAGCTGGGATGAG
>NM_003820 700 111 222
ATTTCCTCCTGCTGCCCGGGAGGTAACACCCTGGACCCCTGGAGTCTGCA
Questions:
1) Comment puis-je lire ce fichier fasta en R comme un dataframe où chaque ligne est une séquence d'enregistrement, la 1ère colonne est la refseqID et la 2ème colonne est la séquence.
2) Comment faire pour extraire des sous-suite (début, fin) emplacement?
NM_000016 1 3 #"ACA"
NM_000775 2 6 #"TAACC"
NM_003820 3 5 #"TTC"
source d'informationauteur Paul.jl
Vous devez vous connecter pour publier un commentaire.
Vous devriez jeter un oeil à la Biostrings paquet.
inspiré par sgibb la réponse ci-dessus, je réponds à la première question comme suit:
Exemple: