MongoDB en tant que fichier de stockage

j'essaie de trouver la meilleure solution pour créer un stockage évolutif pour les gros fichiers. La taille du fichier peut varier de 1 à 2 mo et jusqu'à 500 ou 600 gigaoctets.

J'ai trouvé quelques informations sur Hadoop et c'est de la SF, mais il a l'air un peu compliqué, parce que je n'ai pas besoin de la Carte/réduction des emplois et de nombreuses autres fonctionnalités. Maintenant, je suis en train de penser à utiliser MongoDB et c'est GridFS comme solution de stockage de fichiers.

Et maintenant, les questions:

Ce qui va arriver avec gridfs quand j'essaye d'écrire quelques fichiers
en même temps. Il y aura tout de verrouillage pour les opérations de lecture/écriture? (Je vais l'utiliser comme fichier de stockage)
Seront des fichiers à partir de gridfs être mis en cache dans la ram et la façon dont il aura une incidence sur le lire-écrire perfomance?
Peut-être il y a d'autres solutions qui peuvent résoudre mon problème de manière plus efficace?

Grâce.

InformationsquelleAutor cmd | 2013-02-22

18

Je ne peux répondre pour MongoDB ici, je ne prétends pas, je sais que beaucoup de SF et d'autres technologies.

La GridFs mise en œuvre est totalement à côté client dans le pilote lui-même. Cela signifie qu'il n'existe pas de chargement spéciales ou de compréhension du contexte de fichier servant dans MongoDB lui-même, effectivement MongoDB lui-même n'a même pas comprendre qu'ils sont des fichiers ( http://docs.mongodb.org/manual/applications/gridfs/ ).

Cela signifie que l'interrogation d'une partie de la files ou chunks collection entraînera le même processus, comme il le ferait pour toute autre requête, en vertu de laquelle il charge les données dont il a besoin dans votre jeu de travail ( http://en.wikipedia.org/wiki/Working_set ) qui représente un ensemble de données (ou toutes les données chargées à l'époque) requis par MongoDB dans un laps de temps donné pour maintenir la performance optimale. Il le fait par la pagination dans la RAM (enfin, techniquement, le système d'exploitation n').

Un autre point à prendre en considération, c'est que ce pilote est mis en œuvre. Cela signifie que les spécifications peuvent varier, cependant, je ne le pense pas. Tous les pilotes vous permettent d'interroger un ensemble de documents à partir de la files collection qui ne renferme que les fichiers de méta-données permettant de vous servir plus tard le fichier lui-même à partir de la chunks collection avec une seule requête.

Cependant ce n'est pas la chose la plus importante, vous voulez servir le fichier lui-même, y compris ses données, ce qui signifie que vous serez chargement de la files de la collection et de son chunks collection dans votre travail.

Avec cela à l'esprit, nous avons déjà atteint le premier hic:

Seront des fichiers à partir de gridfs être mis en cache dans la ram et la façon dont il aura une incidence sur le lire-écrire perfomance?

Les performances en lecture de fichiers de petite taille pourrait être génial, directement à partir de la mémoire; l'écrit serait tout aussi bon.

Pour les gros fichiers, pas le cas. La plupart des ordinateurs ne disposent pas de 600 GO de RAM et il est probable, tout à fait normal en fait, à la maison de 600 GO de la partition d'un fichier unique sur un seul mongod instance. Cela crée un problème depuis ce fichier, pour être servi, doit rentrer dans votre jeu de travail toutefois, il est incroyablement plus grand que votre RAM; à ce stade, vous pourriez avoir de la page raclée ( http://en.wikipedia.org/wiki/Thrashing_%28computer_science%29 ) en vertu de laquelle le serveur est juste la page défaillant 24/7 essayez de charger le fichier. L'écrit ici ne sont pas mieux ainsi.

La seule façon de contourner cela est de commencer à mettre un fichier unique à travers de nombreux tessons :\.

Remarque: plus qu'une chose à considérer est que par défaut, la taille moyenne d'un chunks "bloc" est de 256 KO, donc c'est beaucoup de documents pour un 600 go de fichiers. Ce paramètre est manipulable dans la plupart des pilotes.

Ce qui va arriver avec gridfs quand j'essaye d'écrire quelques fichiers simultanément. Il y aura tout de verrouillage pour les opérations de lecture/écriture? (Je vais l'utiliser comme fichier de stockage)

GridFS, n'étant qu'une spécification utilise les mêmes verrous qu'à toute autre collection, à la fois de lire et d'écrire des verrous sur un niveau de base de données (2.2+) ou au niveau global (pré-2.2). Les deux n'interfèrent les uns avec les autres, c'est à dire, comment pouvez-vous garantir la cohérence de la lecture d'un document écrit?

Cela étant dit, la possibilité de conflits existe en fonction de votre scénario de détails, trafic, le nombre de connexions simultanées écrit/lit et beaucoup d'autres choses que nous n'avons aucune idée à ce sujet.

Peut-être il y a d'autres solutions qui peuvent résoudre mon problème de manière plus efficace?

Personnellement, je trouve que S3 (comme @mluggy dit) dans la réduction de la redondance format qui fonctionne le mieux stocker une simple partie de méta-données sur le fichier dans MongoDB, tout comme en utilisant GridFS mais sans les morceaux de la collection, laissez-S3 gérer la distribution, de sauvegarde et d'autres choses pour vous.

J'espère avoir été clair, j'espère que ça aide.

Edit: Contrairement à ce que j'ai accidentellement dit, MongoDB ne dispose pas d'un niveau de la collection de verrouillage, il est à un niveau de base de données de verrouillage.
- I pense le verrouillage global a été changé? (blog.serverdensity.com/goodbye-global-lock-mongodb-2-0-vs-2-2)
- c'est une vieille réponse, je pourrais le mettre à jour si les gens sont toujours à l'aide?
- oh accrocher en fait je dis de la base de données de niveau de verrouillage, où puis-je dire globale?
- J'ai peut-être posté dans le mauvais article. Et je ne trouve pas l'autre... j'ai été en utilisant cette réponse que je cherche à déterminer ce qui serait le mieux pour le stockage des fichiers, Mongo ou un FS
- oh FS facilement pour les gros fichiers, pour les plus petits....hmmm, encore une question difficile, même maintenant, pour les avatars, je suis allé pour le stockage dans le document utilisateur, mais pour les vidéos, je suis allé pour la S3...
- Pour info, Viens de recevoir un email de 10gen: Finally, MongoDB 2.6 lays the foundation for massive improvements to concurrency in MongoDB 2.8, including document-level locking.
- Je viens de recevoir trop 😀 espoir qui fait réellement en 2.8, je croise les doigts
- Bien avec certains pilotes, vous pourriez vous retrouver avec tout le fichier en mémoire vive, ce qui est évidemment mauvais, mais en NodeJS vous, il sera parfaitement bien que vous pouvez utiliser les flux afin de ne pas bloquer votre serveur, mais que cela prendrait beaucoup de ressources d'elle.
- La base de données et l'application de deux couches séparées. Cependant, à travers les langues de la base de données met en œuvre la même base
InformationsquelleAutor Sammaye
4

Avez-vous pensé à sauver des méta-données sur MongoDB et l'écriture de fichiers sur Amazon S3? Les deux ont d'excellents pilotes et le dernier est très redondant, cloud/cdn-prêt de stockage de fichiers. Je donnerais un coup de feu.
- D'accord, avec S3. J'ai vu ce Google Groupes de groupes de post, groups.google.com/forum/?fromgroups=#!topic/mangouste-orm/..., exploré GridFS et puis revint à ce point de vue.
InformationsquelleAutor mluggy
4

Je vais commencer par répondre à la première de deux:
1. Il y a un verrou en écriture lors de l'écriture dans GridFS, oui. Pas de serrure pour les lectures.
2. Les fichiers ne sera pas mis en cache dans la mémoire lorsque vous les interroger, mais leurs métadonnées.
GridFS peut-être pas la meilleur solution pour votre problème. Des verrous en écriture peut devenir quelque chose d'une douleur lorsque vous avez affaire à ce type de situation, en particulier pour les gros fichiers. Il existe d'autres bases de données là-bas qui peut résoudre ce problème pour vous. HDFS est un bon choix, mais comme tu le dis, c'est très compliqué. Je recommande d'envisager un mécanisme de stockage comme Riak ou Amazon S3. Ils sont plus orienté en fonction de stockage pour les fichiers, et ne pas finir avec des inconvénients majeurs. S3 et Riak les deux ont une excellente admin installations, et peut gérer de gros fichiers. Mais avec Riak, le dernier que j'ai su, il y avait à faire certains de segmentation de fichier pour stocker des fichiers de plus de 100 mo. Malgré cela, il est généralement recommandé de faire un certain niveau de segmentation pour des tailles de fichier. Il y a beaucoup de mauvaises choses qui peuvent arriver lors du transfert de fichiers à DBs - à Partir du réseau des sorties de temps, à des dépassements de tampon, etc. De toute façon, votre solution va nécessiter une bonne quantité de réglage pour des tailles de fichier.
- Il y a un rad de verrouillage de lecture à partir de gridfs, les fichiers peuvent être mis en cache dans la mémoire en fonction de l'OS LRU si la mémoire des ordinateurs est assez grand pour un tel travail.
- Chris, merci pour votre réponse. Quelques questions supplémentaires sur HDFS. Existe-il des écluses pour la lecture/écriture dans ce système de fichiers distribués qui peut être aussi douloureux que les verrous dans GridFS? Et que dire de limitations pour le NameNode(un seul ou plusieurs instaces). Peut-être que je vais essayer d'expérimenter avec elle
- Le "travail" est l'équivalent de l'indice. Sur GridFS il ne charge que les que les, pas tous les fichiers. Si elle le faisait, il serait à peu près inutile.
- Je ne sais pas vraiment tout ce qui beaucoup sur HDFS. Je ne crois pas qu'il a tout lire/écrire les verrous, parce qu'il est traité comme un fichier système. Malheureusement, HDFS avait une assez haute barrière à l'entrée que je n'en ai pas foiré autour avec beaucoup. Afin de prendre quoi que ce soit sur HDFS que je dis avec un grain de sel. Riak et S3 de l'autre côté, Ceux que j'ai utilisé assez régulièrement, et pense vraiment qu'ils sont à la fois des solutions viables pour le type de problème que vous résolvez.
- Gridfs n'est pas différent de faire un normal requête dans MongoDB, comme tels, les données sont paginées en tant que normale requête. Il n'y a pas de résolution spéciale des gridfs de données sur le côté serveur, en fait, le serveur n'a aucune idée sur gridfs, il est complètement pilote mis en œuvre.
- Le travail n'est pas l'indice, le jeu de travail est l'ensemble des données requises par le processus dans une période de temps donnée pour maintenir la performance optimale
- C'est seulement à moitié correct - Oui, il charge l'ensemble de l'ensemble de travail, mais c'est les fichiers de métadonnées. Qui est ce que j'appelle l'index. Les "morceaux" de la collection (où les fichiers live) n'est pas chargé à moins de vous appeler directement il.
- Oui, mais si vous obtenez le contenu du fichier, alors que c'est l'interrogation...donc pour répondre à la question; oui fichiers peuvent résider dans la mémoire ram
- Correct, mais c'est juste un fichier unique. Qui est mémorisée dans de nombreux documents dans la collection. Qui individuellement sont mis ensemble pour faire de l'ensemble, mais chaque requête n'est que pour un document particulier, en gardant l'ensemble de travail extrêmement faible. Voici un lien pour plus de détails: docs.mongodb.org/manual/applications/gridfs
- Pas le jeu de travail est toutes les données sont chargées à partir de MongoDB (le processus) en.wikipedia.org/wiki/Working_set et non, les morceaux de requête est une requête unique pour tous les documents, morceaux de ce fichier dans la plupart des pilotes
- Je voudrais vous recommandons de vérifier les mongo manuel pour plus de détails, Sammaye: docs.mongodb.org/manual/faq/storage/#what-is-the-working-set
- Par lequel il est dit: "Si vous exécutez une requête qui nécessite MongoDB pour numériser tous les documents dans une collection, le jeu de travail comprend tous les document actif en mémoire." Edit: en fait cette ligne "Souvent, c'est un sous-ensemble de l'ensemble des données de taille, mais la taille de l'ensemble de travail dépend réel moment à l'utilisation de la base de données."
- L'exception pour les documents de requêtes ne sont pas chargés dans le jeu de travail est sur l'index seulement les curseurs, en vertu de laquelle toutes les données sont garnis uniquement à partir de l'indice, auquel cas l'indice est la seule partie inclus dans le jeu de travail pour cette requête.
- n'aimeriez-vous pas avoir un indice de curseur uniquement lors de la récupération des morceaux de GridFS si?
- Non....pourquoi le fichier de données d'être stockées dans l'index?? Que serait juste fou et extrêmement ressource lourd...beaucoup trop, même pour mes 65GB de la mémoire du serveur
- d'accord, j'ai mal compris ce que signifiait un index curseur uniquement
InformationsquelleAutor Christopher WJ Rueber

Vous devez vous connecter pour publier un commentaire.