Mappés en mémoire MappedByteBuffer ou Direct ByteBuffer DB pour la mise en Œuvre?

Ce qui ressemble à une longue question, parce que de tout le contexte. Il y a 2 questions à l'intérieur du roman ci-dessous. Merci d'avoir pris le temps de lire ceci et de fournir de l'aide.

Situation

Je suis en train de travailler sur une solution évolutive de la banque de données de mise en œuvre qui peuvent soutenir le travail avec les données des fichiers de quelques KO à une TUBERCULOSE ou plus dans la taille de 32 bits ou 64 bits du système.

La banque de données utilise une Copie sur Écriture de conception; toujours en ajoutant les données nouvelles ou modifiées à la fin du fichier de données et de ne jamais en place des modifications à des données existantes.

Le système peut héberger 1 ou plusieurs bases de données; chaque représenté par un fichier sur disque.

Les détails de la mise en œuvre ne sont pas importants; le seul détail important étant que j'ai besoin de constamment s'ajouter au fichier et de les pousser à partir de KO, de MB, GB à la TUBERCULOSE, alors que dans le même temps de façon aléatoire à sauter autour du fichier pour les opérations de lecture pour répondre à des demandes de clients.

Premier Pensées

À première vue, je savais que je voulais utiliser des fichiers mappés en mémoire, donc je pourrais pousser le fardeau de la gestion efficace de l'état en mémoire des données sur l'OS hôte et hors de mon code.

Alors tout mon code doit vous inquiéter, c'est la sérialisation de l'ajouter à des opérations de fichier en écriture, et en permettant à n'importe quel nombre de lecteurs simultanés à chercher dans le fichier de répondre à la demande.

Conception

Parce que l'individu fichiers de données peut croître au-delà de la limite de 2 go de MappedByteBuffer, j'attends que ma conception devra inclure une couche d'abstraction qui prend une écriture de décalage et les convertit en un offset à l'intérieur d'un groupe spécifique de 2 GO segment.

So far So good...

Problèmes

C'est là que j'ai commencé à avoir raccroché et pense que le fait d'aller avec un design différent (proposé ci-dessous) pourrait être la meilleure façon de le faire.

De la lecture à travers 20 "mappés en mémoire" liées à des questions ici, et il semble mmap appels sont sensibles à vouloir contiguë pistes de mémoire lorsqu'ils sont affectés. Ainsi, par exemple, sur un 32 bits de l'OS hôte si j'ai essayé de mmap un fichier de 2 go, en raison de la fragmentation de la mémoire, mes chances sont minces que la cartographie de succès et au lieu de cela je dois utiliser quelque chose comme une série de 128 mo de mappages de tirer un ensemble de fichier.

Quand je pense que le design, et même en utilisant une 1024MB mmap tailles, pour un SGBD hébergement de quelques énormes bases de données de toutes représentées par me dire de 1 to fichiers, j'ai maintenant milliers de mappés en mémoire les régions dans la mémoire et dans mes propres tests sur Windows 7 essayez de créer quelques centaines de mmaps sur un multi-GO fichier, je n'ai pas tout simplement courir dans les exceptions, J'ai effectivement eu la JVM d'erreur à chaque fois que j'ai essayé d'allouer trop et dans un cas obtenu la vidéo dans mon Windows 7 machine à couper et re-initialiser avec un OS-erreur-popup je n'ai jamais vu avant.

Indépendamment de l'argument de "vous n'aurez jamais susceptibles de traiter les fichiers de grande taille" ou "ceci est un exemple artificiel", le fait que je pouvais le code quelque chose comme ça avec ce genre d'effets secondaires mis mon alarme interne en état d'alerte maximale et le fait d'envisager une alternative impl (ci-dessous).

En plus de cette question, ma compréhension de fichiers mappés en mémoire, c'est que je dois re-créer le mapping chaque fois que le fichier est cultivé, donc dans le cas de ce fichier en ajout seulement dans la conception, littéralement cesse de croître.

Je peux lutter contre cette, dans une certaine mesure par la culture du fichier en morceaux (disons 8 MO à l'heure) et à re-créer le mapping chaque 8 MO, mais le besoin d'être constamment re-créer ces mappages a m'énerver surtout avec aucun explicite unmap fonctionnalité prise en charge par Java.

À la Question no 1 de 2

Compte tenu de l'ensemble de mes résultats jusqu'à ce point, je rejette fichiers mappés en mémoire comme une bonne solution pour principalement à lecture intensive des solutions ou en lecture seule des solutions, mais pas d'écrire-des solutions lourdes compte tenu de la nécessité de re-créer le mapping constamment.

Mais ensuite, je regarde le paysage autour de moi avec des solutions telles que MongoDB embrassant des fichiers mappés en mémoire tous sur la place et j'ai l'impression d'un manque certains composant de base ici (je sais que c'allocations dans quelque chose comme 2 GO étendues à un moment, donc j'imagine qu'ils travaillent autour de la ré-carte de coûts avec cette logique ET en aidant à maintenir la séquentiel s'exécute sur disque).

À ce point, je ne sais pas si le problème est de Java est l'absence d'un unmap opération qui rend ce beaucoup plus dangereux et inappropriés pour mes utilisations ou si ma compréhension est erronée et que quelqu'un peut me diriger vers le Nord.

Conception Alternative

Une autre conception de la mappé en mémoire de celui proposé ci-dessus que je vais aller avec si ma compréhension de mmap est correcte est comme suit:

Définir un direct ByteBuffer a un motif raisonnable de taille configurable (2, 4, 8, 16, 32, 64, 128 KO environ) ce qui le rend facilement compatible avec n'importe quelle plate-forme hôte (n'avez pas besoin de vous soucier de le SGBD lui-même provoquant l'écroulement des scénarios) et à l'aide de l'original FileChannel, effectuez spécifique-décalage de lit du fichier 1 tampon-capacité-morceau à la fois, complètement renoncer à des fichiers mappés en mémoire à tous.

L'inconvénient étant que mon code se soucier de choses comme "j'ai suffisamment lu depuis le fichier à charger le dossier complet?"

Un autre côté, c'est que je n'ai pas à faire usage de l'OS de la mémoire virtuelle logique, lui permettant de garder plus "chaud" en mémoire des données automatiquement pour moi; au lieu de cela, j'ai juste à espérer le fichier cache de la logique employée par le système d'exploitation est assez grand pour faire quelque chose d'utile pour moi ici.

La Question n ° 2 de 2

J'espérais obtenir une confirmation de ma compréhension de tout cela.

Par exemple, peut-être que le fichier cache est fantastique, que dans les deux cas (mappé en mémoire ou de diriger les lectures), le système d'exploitation hôte gardera comme beaucoup de mes chaud de données disponibles que possible, et la différence de performance pour les gros fichiers est négligeable.

Ou peut-être que ma compréhension de la nature sensible des exigences pour les fichiers mappés en mémoire (mémoire contiguë) sont incorrectes et que je peux ignorer tout cela.

Si vous avez gagné quelques aperçus depuis de poser votre question, merci de poster une réponse. Beaucoup de gens lisent cette question et qu'ils pourraient utiliser l'aperçu. Il ya une tonne de "ne pas corriger les" bugs entourant mmapping, comme bugs.sun.com/view_bug.do?bug_id=6893654 (bien que la JVM erreur de segmentation et de pilote graphique s'écraser sont encore pire!) Il est intéressant de voir comment un simple, élégant fonctionnalité native devient complexe et laid dans le monde géré.
vous êtes au bon endroit (à propos de l'élégant, de devenir inélégant) -- mon résultat final est que mmap ed fichiers n'ont pas pu être mis en place rapidement, sans introduire une grande instabilité dans le système (je ne sais pas si j'ai précisé dans ce fil, mais j'ai réussi à écran bleu de mon windows dev de la machine). Ce détail à lui SEUL me donne envie de coller à AsyncFileChannel utiliser pour les e/S de fichier et d'éviter mmap tous ensemble, bien que Peter (ci-dessous) a eu un succès important dans la Chronique.
Une fois que j'ai été en mesure d'apporter à la fois la VM et ma machine à genoux avec une apparente "mauvaise utilisation" de mmapped fichiers, j'ai été fait d'aller en bas de ce chemin. Elles sont élégantes et offrent des performances fantastiques, mais de plus la lecture que j'ai fait sur AsyncFileChannel il semble que vous pouvez obtenir à peu près la même performance (permettant à l'OS à utiliser le FS et le contrôleur de disque et d'e/S de commande pour optimiser les requêtes). Si vous voulez vraiment aller en bas de la mmap chemin, Peter est l'expert ici.

InformationsquelleAutor Riyad Kalla | 2012-02-13

15

Vous pourriez être intéressé par https://github.com/peter-lawrey/Java-Chronicle

Dans ce que je créer plusieurs mappages de mémoire pour le même fichier (la taille est une puissance de 2 jusqu'à 1 GO), Le fichier peut être de toute taille (jusqu'à la taille de votre disque dur)

Il crée également un index de sorte que vous pouvez trouver n'importe quel enregistrement au hasard et chaque enregistrement peut être de toute taille.

Il peut être partagé entre les processus et pour de faibles temps de latence des événements entre les processus.

Je fais l'hypothèse que vous utilisez un système d'exploitation 64 bits si vous voulez utiliser de grandes quantités de données. Dans ce cas, une Liste de MappedByteBuffer sera tout ce que vous avez besoin. Il est logique d'utiliser les bons outils pour le travail. 😉

J'ai trouvé une performance bien même avec des tailles de données autour de 10x à votre taille de la mémoire principale (j'ai été en utilisant un rapide disque SSD donc YMMV)
- ne savais pas que vous avez été la Chronique de l'auteur; merci pour la réponse. Comment gérez-vous l'écriture du fichier, c'est via le MBB ou avez-vous simplement appeler le FileChannel directement et à chaque fois une lecture op vient en, dehors des limites de la favorise MBB, il vous suffit de créer un nouveau et de l'ajouter à votre dataBuffers liste? Un noyau détail me manque, c'est ce que beaucoup de gros fichiers mappés en fait à l'OS hôte de l'utilisation de la mémoire. (suite dans le prochain commentaire...)
- puisqu'il semble être une exigence de la "ligne de ram" quand mem-cartographie d'un fichier, dis-je décider sur quelque chose de sûr en 64 ou 128 mo et le fichier de base de données augmente et la demande pour les données au-delà de la déjà mappé limites je viens de créer plus de à la volée. Alors disons que mon fichier de données arrive à 100s de l'Abg et j'ai 100s si pas 1000 mem-mappé octet tampons... il me semble que je suis en train d'ouvrir mon ordinateur hôte pour commencer la pagination comme un fou comme VM obtient rempli. Je veux être au courant de gotcha-cas et des inconvénients est l'essentiel de ce que je vous demande.
- Chaque fichier mappé en Mémoire est un peu cher (je n'ai pas le détail exact) je sais que si vous créer des lots de 1 MO mappages vous manquez de ressources assez rapidement. Toutefois, si vous utilisez 1 GO de tampons, vous pouvez créer un 8 to fichier. Vous pouvez déterminer la quantité est trop pour votre système par la création d'un grand nombre de petits (par exemple, 4 KO)
- Faire les tampons trop grand, n'est pas un problème. Il n'alloue de la mémoire ou du disque les pages que vous utilisez réellement. Cela signifie que vous pouvez faire est de 1 GO pour les données et les index, mais ne du et de trouver son uniquement à l'aide de 8 KO. Alors, la tentation est t de les rendre aussi grand que possible. L'inconvénient est que le processus de création est cher (il y a un travail qui est proportionnelle à la taille de la cartographie) Pour cette raison, j'ai fait un de taille moyenne comme le 16 MO ou 256 MO de réduire le hit engagés sur une croissance.
- J'ai regardé la culture de la cartographie dans un thread d'arrière-plan, tandis que beaucoup plus rapide, j'ai trouvé cela conduit à l'aléatoire des erreurs de BUS. 🙁 Il semble que la cartographie ne peut être immédiatement utilisé dans un thread différent de celui qui l'a créé. Même en le libérant dans un autre thread peut conduire à un accident.
InformationsquelleAutor Peter Lawrey
2

Je pense que vous ne devriez pas vous soucier de mmap'ping des fichiers jusqu'à 2 GO en taille.

En regardant les sources de MongoDB comme un exemple de la base de données utilisation de fichiers mappés en mémoire, vous trouverez toujours des cartes complet du fichier de données dans MemoryMappedFile::mapWithOptions() (qui appelle MemoryMappedFile::map()). DB données s'étend sur plusieurs fichiers jusqu'à 2 GO en taille. Aussi il preallocates fichiers de données donc il n'y a pas besoin de reconfigurer le volume de données augmente et cela empêche la fragmentation des fichiers. Généralement, vous pouvez vous inspirez-vous avec le code source de cette DB.
- J'ai mis à jour les liens, mais je pense que le code est assez obsolète, MongoDB a connu beaucoup de changements depuis.
InformationsquelleAutor pingw33n

Vous devez vous connecter pour publier un commentaire.