Lire FASTA dans un dataframe et d'extraire des séquences de fichier FASTA
J'ai un petit fasta fichier de séquences d'ADN qui ressemble à ceci:
>NM_000016 700 200 234
ACATATTGGAGGCCGAAACAATGAGGCGTGATCAACTCAGTATATCAC
>NM_000775 700 124 236
CTAACCTCTCCCAGTGTGGAACCTCTATCTCATGAGAAAGCTGGGATGAG
>NM_003820 700 111 222
ATTTCCTCCTGCTGCCCGGGAGGTAACACCCTGGACCCCTGGAGTCTGCA
Questions:
1) Comment puis-je lire ce fichier fasta en R comme un dataframe où chaque ligne est une séquence d'enregistrement, la 1ère colonne est la refseqID et la 2ème colonne est la séquence.
2) Comment faire pour extraire des sous-suite au (début, fin) emplacement?
NM_000016 1 3 #"ACA"
NM_000775 2 6 #"TAACC"
NM_003820 3 5 #"TTC"
Vous devez vous connecter pour publier un commentaire.
Vous devriez jeter un oeil à la Biostrings paquet.
DNAString("TATCAAATACTCAAGCACtaaggaaacaggaaaatct")
sera de retour37-letter "DNAString" instance seq: TATCAAATACTCAAGCACTAAGGAAACAGGAAAATCT
Pourquoi estaaggaaacaggaaaatct
ne pas rester en minuscules?inspiré par sgibb la réponse ci-dessus, je réponds à la première question comme suit:
Exemple: