NoSQL (MongoDB) vs Lucene (ou Solr) en tant que votre base de données

Avec le NoSQL mouvement de croissance sur la base du document de bases de données, j'ai regardé MongoDB ces derniers temps. J'ai remarqué une similitude frappante avec la façon de traiter les objets comme "Documents", tout comme Lucene n' (et les utilisateurs de Solr).

Donc, la question: Pourquoi voudriez-vous d'utiliser le NoSQL (MongoDB, Cassandra, CouchDB, etc) sur Lucene (ou Solr) que votre "base de données"?

Ce que je suis (et je suis sûr que d'autres sont à la recherche d'une réponse est certaine, plongée comparaisons d'entre eux. Passons sur la base de données relationnelle discussions tous ensemble, ils servent un but différent.

Lucene donne de sérieux atouts, comme les puissants de la recherche et des systèmes de poids. Pour ne pas mentionner les facettes dans Solr (qui Solr est intégré dans Lucene bientôt, yay!). Vous pouvez utiliser Lucene documents pour stocker les Identifiants et accéder aux documents en tant que tels comme MongoDB. Mélanger avec Solr, et vous pouvez maintenant obtenir un Service web-basé, d'équilibrage de charge de la solution.

Vous pouvez même lancer dans une comparaison de l'out-of-process fournisseurs de cache tels que la Vitesse ou MemCached lorsque l'on parle de semblable stockage des données et de l'évolutivité de MongoDB.

Les restrictions autour de MongoDB me rappelle de l'utilisation de MemCached, mais je peux utiliser Microsoft sur la Vitesse et avoir plus de regroupement et de collecte des listes de pouvoir sur MongoDB (je pense). Ne pouvez pas obtenir la plus rapide ou plus évolutif que la mise en cache des données dans la mémoire. Même Lucene est un fournisseur de mémoire.

MongoDB (et les autres) ne présentent certains avantages, tels que la facilité d'utilisation de leur API. Nouveau un document, créer un id, et de les stocker. Fait. Agréable et facile.

Voir stackoverflow.com/questions/2546494/...
Merci, mais cela ne veut pas répondre à ma question: qui est, pourquoi voudrais-je utiliser MongoDB au lieu de Lucene pour ma base de données? Ils ont tous les deux gérer les documents, mais Lucene a quelques très puissantes options de recherche. +1 mais pour réellement trouver une question connexe. J'ai plusieurs fois la même recherche sur Stackoverflow, et n'est pas venu avec un près de la comparaison.
Comment êtes-vous d'utiliser Lucene qu'il fournit des fonctionnalités similaires à MongoDB? Êtes-vous l'attacher à un relationnel pour le stockage?
C'est une question hypothétique. Pourquoi ne pas utiliser Lucene que votre stockage de document? Vous obtenez beaucoup plus à la recherche de puissance et d'évolutivité (lorsqu'il est mélangé avec Solr, prise de Lucene encore plus facile à utiliser).

InformationsquelleAutor eduncan911 | 2010-07-09

244

C'est une grande question, quelque chose que j'ai médité sur tout à fait un peu. Je vais résumer mon leçons apprises:
1. Vous pouvez facilement utiliser Lucene/Solr en lieu et place de MongoDB pour à peu près toutes les situations, mais pas vice-versa. Subvention Ingersoll du post résume ici.
2. MongoDB etc. semblent servir un but où il n'y a aucune exigence en matière de recherche et/ou de la recherche à facettes. Il semble être un moyen plus simple et sans doute plus facile de transition pour les programmeurs de désintoxication à partir du SGBDR monde. À moins que l'on est habitué Lucene & Solr ont un plus raide de la courbe d'apprentissage.
3. Il n'y a pas beaucoup d'exemples de l'utilisation de Lucene/Solr comme une banque de données, mais le Gardien a fait quelques progrès et de résumer cela dans une excellente jeu de diapositives, mais ils sont également non-incarcération sur totalement de sauter sur Solr train en marche et de "l'enquête" en combinant les Solr avec CouchDB.
4. Enfin, je vais vous proposons notre expérience, malheureusement, ne peut révéler beaucoup sur le cas. Nous travaillons à l'échelle de plusieurs to de données, en temps quasi réel de l'application. Après avoir étudié diverses combinaisons, a décidé de rester avec Solr. Aucun regret à ce jour (de 6 mois & comptage) et ne vois aucune raison de passer à une autre.
Résumé: si vous n'avez pas de recherche exigence, Mongo offre un moyen simple & approche puissante. Toutefois, si la recherche est la clé de votre offre, vous êtes probablement mieux de coller à une tech (Solr/Lucene) et donc d'optimiser le diable hors de lui - moins de pièces en mouvement.

Mes 2 cents, espère que cela a aidé.
- Solr n'a pas de carte de réduire la fonctionnalité. Par conséquent, les rapports, les statistiques, le calcul des scores, etc. ne sont pas possibles! Utiliser Solr uniquement si vous avez/ peut-menace vos données en tant que données de texte
- Solr ne pas réduire la carte intégré, mais vous pouvez le combiner avec Hadoop. architects.dzone.com/articles/solr-hadoop-big-data-love
- Map-reduce non, mais elle a la capacité d'exécuter une requête en parallèle sur plusieurs solr serveurs et d'agrégation de ces résultats. Ainsi, alors qu'il n'a pas d'usage général map-reduce il a déjà écrit ce que vous voulez être écrit avec map-reduce qui est parallèle des requêtes de recherche.
- Serait-il une option pour utiliser Lucene comme l'un des principaux DB et de créer des indices agrégés avec MongoDB en quelque sorte? Ou n'est-ce pas logique? Et Mikos: grande réponse et +1 pour l'expérience du monde réel mentionner.
- depuis qu'il a été longtemps depuis la dernière répondu à cette question .. Quelles sont vos pensées maintenant ?
- de solr6 il prend en charge la carte de réduire la fonctionnalité avec des expressions
- plus de neuf ans plus tard, je suis venu à dire comment ennuyé, je suis à l'idée que les programmeurs ont besoin de "detox de SGBDR". SGBDR n'est pas un médicament, ni un poison. C'est un outil qui est utile dans de nombreux, de nombreux cas, et totalement inapproprié dans beaucoup d'autres.
InformationsquelleAutor Mikos
36

Vous ne pouvez pas partiellement mise à jour d'un document dans solr. Vous avez de re-publier tous les champs afin de mettre à jour un document.

Et des questions de rendement. Si vous n'avez pas commis, votre changement de solr ne prend pas effet, si vous vous engagez à chaque fois, le rendement en souffre.

Il n'y a pas de transaction en solr.

Comme solr a ces inconvénients, quelques fois nosql est un meilleur choix.
- MongoDB n'a pas de transactions.
- Lucene Solr ou avoir en temps réel de la recherche, afin de commettre n'est pas un problème.
- dans MongoDB toutes les mises à jour dans un document est Atomique. Et pour info, Lucene n'a pas de transactions (dans votre sens), soit
- Cette réponse est devenue incorrecte. Solr 4+ prend en charge les mises à jour partielles, et le soft s'engage / en temps quasi réel, de faire disparaître la plupart des questions de "old-style" Solr s'engage.
- Ils ont ajouté le support pour les transactions sur MongoDB 4.
InformationsquelleAutor Peter Long
26

Nous utiliser MongoDB et Solr ensemble et ils fonctionnent bien. Vous pouvez trouver mon billet de blog ici où j'ai décrit la façon dont nous utilisons ces technologies ensemble. En voici un extrait:

[...] Cependant, nous observons que les performances des requêtes de Solr diminue lorsque l'indice de
la taille augmente. Nous nous sommes rendu compte que la meilleure solution est d'utiliser Solr
et Mongo DB ensemble. Ensuite, nous intégrons Solr avec MongoDB par le stockage
contenu dans la MongoDB et la création d'index à l'aide de Solr pour en texte intégral
de recherche. Nous ne stocker l'identifiant unique de chaque document dans l'index Solr
et récupérer le contenu réel de MongoDB, après une recherche sur Solr.
Obtention des documents de MongoDB est plus rapide que Solr, car il n'y a pas de
les analyseurs de notation etc. [...]
- Bon billet de blog. Oui, c'est exactement comment je l'ai utilisé Lucene dans le passé avec les anciens SQL et MySql banques de données (stockage des Identifiants de Lucene, et de récupérer les types complexes à partir de la banque de données). Techniquement si, à cette question était d'explorer les différences entre les deux - pas exactement comment utiliser le "meilleur des deux mondes." +1 pour l'utiliser de cette manière, comme c'est vraiment la seule véritable façon d'utiliser de grandes quantités de données.
- Merci pour votre réponse. Je sais que la question est sur le choix de la Nosql sur Lucene, mais ici, je veux montrer que, au lieu de choisir l'un sur les autres, de les utiliser dans un hybride façon de donner le meilleur résultat.
- Vous souvenez-vous (maintenant 1,5 ans plus tard) à peu près la taille de la Solr base de données lorsque les performances de la requête avait diminué, de sorte que vous commencé à penser à l'ajout de MongoDB? (Il était de 10 000 docs ou 10 000 000 docs?)
- Très utile. Je travaille dans le SIG et donc être capable de combiner en texte intégral avec la recherche spatiale de cette façon est très intrigante. Nous avons déjà utiliser MongoDB et Postgres, et j'ai pensé à Solr pour un certain temps.
- le blog post le lien ne fonctionne pas. Pourriez-vous fournir un autre lien ou une source ?
- le lien de blog n'est pas de travail. Puis-je trouver le contenu posté ailleurs ?
InformationsquelleAutor Parvin Gasimzade
24

Veuillez également noter que certaines personnes ont intégré Solr/Lucene dans Mongo en ayant toutes les index soient stockées dans Solr et aussi le suivi oplog opérations en cascade et des mises à jour pertinentes dans Solr.

Avec cette approche hybride, vous pouvez vraiment avoir le meilleur des deux mondes avec des fonctionnalités telles que la recherche en texte intégral et rapide lit avec un fiable de la banque de données peut également avoir flamboyant de la vitesse d'écriture.

C'est un peu technique pour l'installation, mais il y a beaucoup de oplog commerçants qui peuvent s'intégrer dans solr. Découvrez ce que rangespan fait dans cet article.

http://denormalised.com/home/mongodb-pub-sub-using-the-replication-oplog.html
- Si je vous ai bien compris, la raison pour laquelle vous utiliser MongoDB (en plus de Solr), c'est que MongoDB est plus rapide d'insertion + vitesse de lecture? Avez-vous également indiquer que MongoDB est plus fiable de la banque de données? Ou étiez-vous référant à Solr?) — Qu'avez-vous commencer avec au départ? Seulement MongoDB, seulement Solr, ou les deux Mongo + Solr?
InformationsquelleAutor Prasith Govin
12

De mon expérience avec les deux, Mongo est idéal pour simple, simple d'utilisation. Le principal Mongo inconvénient que nous avons subi est la mauvaise performance sur les imprévus de requêtes (vous ne pouvez pas créé mongo index de tous les filtre/tri des combinaisons, vous simple ne peut pas faire).

Et là où Lucene/Solr prévaut est un grand moment, surtout avec la FilterQuery la mise en cache, la Performance est remarquable.

InformationsquelleAutor mjalajel
10

Car personne d'autre ne mentionné, permettez-moi d'ajouter que MongoDB est un schéma de moins en moins, alors que Solr applique un schéma. Donc, si les champs de vos documents sont susceptibles de changer, c'est une des raisons de choisir MongoDB sur Solr.
- qui à mon humble avis n'est pas tout à fait vrai. Solr a un schéma tel que défini dans schema.xml, MAIS il ne aussi "dynamique des champs", c'est à dire les champs dont le type est déterminé par l'intermédiaire de cartes sauvages, de sorte que vous pouvez avoir tous les champs correspondant, disons, *_i indexés comme les champs de type entier. lors de l'ajout de documents, vous pouvez alors avoir des documents conaining champs comme count_i, foo_i, bar_i qui sont comprises comme des champs de type entier sans apparaître dans schema.xml littéralement. joli schéma, je dirais. voir youtube.com/watch?v=WYVM6Wz-XTw pour plus d'.
- Je dois revenir et remonter le tout avec un +1 parce que c'est vrai - des modifications de schéma dans Solr a toujours été dans un pain PITA de garder en synchronisation avec d'autres banques de données.
- Solr est un fait que le soutien de schéma ou de non-schéma!
InformationsquelleAutor Aquarelle
4

@mauricio-scheffer mentionné Solr 4 - pour ceux qui sont intéressés en ce que, LucidWorks décrit Solr 4 "le NoSQL Serveur de Recherche" il y a une vidéo à http://www.lucidworks.com/webinar-solr-4-the-nosql-search-server/ où ils vont dans le détail sur le NoSQL(ish) caractéristiques. (L'-ish est pour leur version de schemaless étant en réalité une dynamique de schéma.)

InformationsquelleAutor Beth
1

Si vous voulez juste pour stocker des données en utilisant le format clé-valeur, Lucene n'est pas recommandé en raison de son index inversé va perdre trop de l'espace disque. Et avec la sauvegarde des données dans le disque, son rendement est beaucoup plus lent que les bases de données NoSQL comme le redis parce redis enregistrer les données dans la mémoire RAM. La plupart d'avantage de Lucene est qu'il prend en charge beaucoup de requêtes, de sorte que les requêtes floues peuvent être pris en charge.

InformationsquelleAutor 张洪岩
0

La troisième partie des solutions, comme un mongo op-journal de la queue sont attrayants. Des pensées ou des questions demeurent quant à savoir si les solutions pourraient être étroitement intégré, en supposant un développement/architecture de la perspective. Je ne m'attends pas à voir une solution étroitement intégrée solution pour ces fonctions pour quelques raisons (un peu spéculatif et sous réserve de clarification et ne sont pas à jour avec les efforts de développement):
- mongo est le c++, lucene/solr sont java
  - peut-être lucene pourrait utiliser certaines mongo libs
  - peut-être mongo pourrait réécrire certains lucene algorithmes, voir aussi:
    
    http://clucene.sourceforge.net/
    
    http://lucy.apache.org/
- lucene prend en charge divers formats doc
  - mongo est porté sur JSON (BFILS)
- lucene utilise immuable documents
  - seul champ des mises à jour sont un problème, s'ils sont disponibles
- lucene indices sont immuables complexes de fusion ops
- mongo requêtes javascript
- mongo n'a pas de texte d'analyseurs et des générateurs de jetons (autant que je sache)
- mongo doc tailles sont limitées, ce qui pourrait aller à l'encontre de lucene
- mongo agrégation d'opérations n'ont pas de place dans lucene
  - lucene a des options pour stocker les champs de docs, mais ce n'est pas la même chose
  - solr fournit en quelque sorte d'agrégation/stats et SQL/graphique des requêtes
InformationsquelleAutor Darren Weber
0

MongoDB Atlas aura un lucene-moteur de recherche basé sur bientôt. La grosse annonce a été faite lors de cette semaine MongoDB Monde 2019 conférence. C'est un excellent moyen d'encourager davantage l'utilisation de leur chiffre d'affaires élevé MongoDB Atlas produit.

J'espérais voir il a roulé dans la MongoDB entreprises version 4.2, mais il n'y a pas eu de nouvelles de lui apporter à leur sur-prem ligne de produits.

Plus d'infos ici: https://www.mongodb.com/atlas/full-text-search

InformationsquelleAutor Gary Russo

Vous devez vous connecter pour publier un commentaire.