Combien de stockage serait nécessaire au stockage d'un génome humain?
Je suis à la recherche de la quantité de stockage en octets (MO, GO, to, etc.) nécessaire pour stocker un seul génome humain. J'ai lu quelques articles sur Wikipédia à propos de l'ADN, les chromosomes, les paires de base, les gènes, et avoir un aperçu de la deviner, mais avant de divulguer tout ce que j'aimerais voir comment les autres l'approche de cette question.
Une alternative question serait de savoir comment de nombreux atomes sont là dans l'ADN humain, mais ce serait hors sujet pour ce site.
Je comprends que ce sera une approximation, donc je suis à la recherche de la valeur minimale qui serait capable de stocker de l'ADN d'un être humain.
- Comme pour le nombre d'atomes, cela dépend de la composition. A et T sont des molécules plus petites que G et C. La structure de la molécule, de la viande de boeuf, bien que, pas sa composition atomique, donc ce n'est pas vraiment très utile de calcul. (Pour ce que ça vaut, par exemple, l'Une molécule aka désoxyadénosine est C10H13N5O3 donc 31 atomes.)
- Voir aussi biostars.org/p/5514
- Sauf pour les utilisateurs slayton, Paul Amstrong et rauchen toutes les autres réponses sont tout à fait tort, dans son essence, ou loin d'être complète. Dans les réponses de l'utilisateur (pas) mentionné méthodes de compression ou est mal expliqué. Voir ma réponse à clarifier les 4 temps de la réduction de taille du génome comme on le voit dans de nombreuses réponses.
- Je vais voter pour fermer cette question hors-sujet parce que c'est hors-sujet ici, devrait être sur bioinformatics.stackexchange.com
Vous devez vous connecter pour publier un commentaire.
Si vous faites confiance à de telles choses, voici ce que Wikipedia créances (à partir de http://en.wikipedia.org/wiki/Human_genome#Information_content):
Vous ne stockez pas la totalité de l'ADN en un seul flux, plutôt, la plupart du temps il est magasin par les chromosomes.
Un grand chromosome prendre environ 300 MO et une petite d'environ 50 MO.
Edit:
Je pense que la première raison pour laquelle il n'est pas enregistré dans 2 bits par paire de base est qu'il serait la cause d'un obstacle pour travailler avec les données. La plupart des gens ne sais pas comment faire pour le convertir. Et même lorsqu'un programme pour la conversion serait donné, beaucoup de gens dans les grandes entreprises ou des instituts de recherche ne sont pas autorisés/besoin de demander ou de ne pas savoir comment installer des programmes...
1 GO de stockage ne coûte rien, même le téléchargement de 3 GO ne prend que 4 minutes avec 100 Mbitsps et la plupart des entreprises ont des vitesses plus élevées.
Un autre point est que les données n'est pas aussi simple que vous le dit.
par exemple, La méthode de séquençage inventé par Craig_Venter est une grande percée, mais a aussi ses côtés. Il ne pouvait pas séparer les longues chaînes de la même paire de base, de sorte qu'il n'est pas toujours à 100% clair si il y a 8 ou 9 de. Choses que vous devez prendre soin de la plus tard...
Un autre exemple est la La méthylation de l'ADN parce que vous ne pouvez pas stocker cette Information dans un 2 bits de la représentation.
Fondamentalement, chaque paire de base prend 2 bits (vous pouvez utiliser 00, 01, 10, 11 T, G, C et A). Depuis il y a environ 2,9 milliards de paires de bases dans le génome humain, (2 * 2,9 milliards de dollars) bits ~= 691 mo.
Je ne suis pas expert, cependant, la Génome Humain page sur Wikipédia est la suivante:
Raw MO:
Je ne suis pas sûr de l'endroit où leur variance vient, mais je suis sûr que vous pouvez comprendre.
N
, par exemple, où les données ne sont pas cartographiables et donc inconnue). L'IUPAC de nucléotides codes comprennent plus que la norme à quatre, ce qui peut augmenter les coûts de stockage. ebi.ac.uk/2can/tutorials/aa.htmlR
, soit pour Une ou G,N
pour toute la base,.
pour un écart, etc. Si nous pouvions lire un génome parfaitement, il serait juste 2 bits par base.Oui, le minimum de RAM nécessaire pour l'ensemble de l'ADN humain est d'environ 770 MO.
Cependant, les 2 bits de la représentation est en pratique. Il est dur à la recherche par le biais de ou faire quelques calculs sur elle. Par conséquent, certains mathématiciens conçu de manière plus efficace pour stocker ces sequencies de bases ... et de les utiliser dans la recherche et la comparaison des algorithmes tels que par exemple GARLI (www.bio.utexas.edu/faculty/antisense/garli/garli.html ).
Cette application fonctionne sur mon PC en ce moment, donc je peux Vous dire... qu'il a pratiquement l'ADN stockés dans about: 1 563 MO.
Le génome humain contient de 2,9 milliards de paires de base. Donc, si vous représenté chaque paire de base comme un octet alors il faudrait 2,9 milliards d'octets ou de 2,9 GO. Vous pourriez probablement trouver une façon plus créative moyen de stocker des paires de base que chaque paire de base ne nécessite 2 bits. Donc, vous pourriez probablement le magasin 4 paires de base par octet ramener le total de moins d'un GO.
Il y a 4 bases nucléotidiques qui composent notre ADN, ce sont A,C,G,T, par conséquent, pour chaque base dans l'ADN prend 2bits. Il y a environ 2,9 milliards de bases c'est autour de 700 méga-octets. La chose étrange est que combler des données normales cd! coïncidence?!?
a juste fait trop. la séquence brute est de ~700 MO. si l'on utilise un stockage fixe, séquence ou d'une séquence fixe de stockage algoritm - et le fait que les changements sont de 1%, je calcuated ~120 MO avec une perchromosome-sequenceoffset-statedelta de stockage. pour le stockage.
La plupart des réponses à l'exception des utilisateurs slayton, rauchen, Paul Amstrong sont morts de mal, si son sujet de pure storage, seul à seul, sans techniques de compression.
Le génome humain avec 3 go de nucléotides correspondent avec 3 go d'octets et non pas ~750 MO. La construction du "haploïde" génome selon NCBI est actuellement 3436687kb ou 3.436687 Go en taille. Vérifier ici pour vous-même.
Haploïdes = copie unique d'un chromosome.
Diploïde = deux versions de haploïdes.
Les humains ont 22 unique chromosomes x 2 = 44.
Mâle de 23 chromosomes X, Y et fait 46 au total.
Les femelles 23 chrom. est X, X et permet ainsi de 46 au total.
Pour les hommes, il serait de 23 + 1 chromosome dans le stockage de données sur un disque dur et pour les femmes de 23 chromosomes, expliquant le peu de différences mentionnées dans les réponses. Le X chrom. des hommes est égal à X chrom. des femelles.
Ainsi le chargement du génome (23 + 1) dans la mémoire est faite en partie par BLAST construit à l'aide de bases de données à partir de fasta-fichiers. Indépendamment de zippée versions ou pas nucléotides sont à peine à être comprimé. Retour dans les premiers jours de l'une des tours a été utilisé pour remplacer les répétitions en tandem (GACGACGAC avec des temps de codage par exemple "3GAC"; 9byte à 4byte). La raison en était pour économiser de l'espace disque dur (zone de la 500bm-2 GO HDDD plateaux avec 7.200 tr /min et connecteurs SCSI). Pour la séquence de cette recherche a également été fait avec la requête.
Si "codé de nucléotides" de stockage serait de 2 bits par lettre, puis vous obtenez pour un octet:
A = 00
C = 01
G = 10
T = 11
Seulement de cette façon vous profiter pleinement de positions 1,2,3,4,5,6,7 et 8 pour 1 octet de codage. Par exemple la combinaison 00.01.10.11 (comme octet
00011011
) serait alors correspondent pour "ACTG" (afficher dans un fichier de texte comme un caractère inconnu). Ce est responsable à lui seul d'une à quatre fois la réduction de taille de fichier, comme nous le voyons dans d'autres réponses. Ainsi 3.4 Go sera réduit à 0.85917175 Go... ~860MB y compris un alors requis programme de conversion (23 kb-4 mo).Mais... en biologie, vous voulez être en mesure de lire quelque chose donc la compression au format gzip est plus que suffisant. Décompressé, vous pouvez toujours le lire. Si cet octet de remplissage a été utilisé, il devient plus difficile de lire les données. C'est pourquoi fasta-les fichiers sont des fichiers de texte brut dans la réalité.
Toutes les réponses sont omettant le fait que nuDNA n'est pas le seul de l'ADN qui définit un génome humain. l'adn mitochondrial est héréditaire et il contribue supplémentaire de 16 500 paires de base d'un génome humain, l'amenant davantage en ligne avec la Wikipedia deviner de 770MB pour les hommes, et 756MB pour les femmes.
Cela ne signifie pas qu'un génome humain peut facilement être stocké sur une clé USB de 4GO. Bits ne représentent pas les informations par eux-mêmes, c'est la combinaison de bits qui représentent de l'information. Ainsi, dans le cas de nuDNA et de l'adnmt, les bits sont codés (à ne pas confondre avec compressé) pour représenter des protéines et des enzymes qui en eux-mêmes exige beaucoup de MBs de données brutes pour représenter, en particulier en termes de fonctionnalité.
De la nourriture pour la pensée: 80% du génome humain est appelé "non-codant" de l'ADN, donc, avez-vous vraiment croire que l'ensemble du corps humain et le cerveau peuvent être représentés dans un simple 151 à 154MBs de données brutes?
Il n'y a que 2 types de paires de base, la Cytosine ne peut se lier à la Guanine, Adénine et ne peut se lier à la thymine,
De sorte que chaque paire de base peut être considéré comme un seul bit.
Cela signifie que l'ensemble d'un brin de l'ADN Humain ~3 milliards de "Bits" serait droite autour de ~350 mo.
Un base, T, C, A, G (dans le nombre de base-4 système: 0, 1, 2, 3) -- est encodé comme deux bits (pas un), un paire de base est codée par quatre bits.