Trouver mongoDB dossiers de lots (à l'aide de mongoid ruby adaptateur)

À l'aide de rails 3 et mongoDB avec le mongoid adaptateur, comment puis-je lot trouve à l'mongo DB? J'ai besoin de saisir tous les enregistrements dans une particulier de mongo DB collecte et l'index dans solr (index initial de données pour la recherche).

Le problème, je vais avoir, c'est que faire du Modèle.toutes les attrape tous les documents et les stocke dans la mémoire. Puis, lorsque j'ai procédé sur eux et de l'index solr, ma mémoire se mange et le processus meurt.

Ce que je suis en train de faire est de le lot le trouver dans mongo afin que je puisse effectuer une itération de plus de 1 000 enregistrements à la fois, de les transmettre à solr à l'index, puis de traiter les 1000 prochaines, etc...

Le code que j'ai actuellement ont fait ceci:

Model.all.each do |r|
  Sunspot.index(r)
end

Pour une collection qui a environ 1,5 millions de disques, ce mange jusqu'à 8 GO de mémoire et tue le processus. Dans ActiveRecord, il y a un find_in_batches méthode qui me permet de segmenter les requêtes en plusieurs lots qui garde la mémoire de devenir hors de contrôle. Cependant, je n'arrive pas à trouver quelque chose comme cela pour mongoDB/mongoid.

Je voudrais être en mesure de faire quelque chose comme ceci:

Model.all.in_batches_of(1000) do |batch|
  Sunpot.index(batch)
end

Qui permettrait d'alléger mes problèmes de mémoire et de requête de difficultés que de faire un simple problème de jeu à chaque fois. La documentation est rare, cependant, faire des lots trouve dans mongoDB. Je vois beaucoup de documentation sur lot semelles, mais pas de lot de découvertes.

Êtes-vous sûr que vous avez vu des problèmes de mémoire avec cela? Mongoid et le sous-jacent Mongo pilote déjà lot de requêtes avec un curseur. Cela permet de maintenir le faible empreinte mémoire.
Par le chemin, vous devriez changer la accepté de répondre à @RyanMcGeary un puis tous les futurs visitos de votre question sera de voir le bon et personne n'a gagné pas mettre en œuvre le manuel de l'optimisation qui est déjà fait par le pilote .

InformationsquelleAutor Dan L | 2011-08-12

85

Avec Mongoid, vous n'avez pas besoin d'manuellement lot de la requête.

Dans Mongoid, Model.all renvoie une Mongoid::Criteria instance. Sur appel de #each sur ce critère, une Mongo pilote curseur est instancié et utilisé pour parcourir les dossiers. Cette sous-jacent Mongo pilote curseur déjà lots tous les records. Par défaut, le batch_size est de 100.

Pour plus d'informations sur ce sujet, lire ce commentaire du Mongoid auteur et mainteneur.

En résumé, il vous suffit de faire ceci:
```
Model.all.each do |r|
  Sunspot.index(r)
end
```
- merci pour l'info @RyanMcGeary, dieu comment ai-je raté le curseur de la chose,,, dans le lien durran spécifié sur batch_size, comment pouvons-nous préciser que l'extérieur...?
- Je ne suis pas sûr si Mongoid expose la capacité de changer le batch_size par requête. Qui pourrait être digne d'un patch si elle n'est pas encore une option.
- Nice, Et quels sont les autres Enumerable méthodes comme map ou collect?
- cela veut-il dire par défaut, la base de données est frappé ~ n / 100 fois à chaque fois?
- n'est probablement pas le meilleur terme à utiliser, ici, parce qu'il implique de ré-exécuter la requête à chaque fois. C'est une base de données de curseur. Penser plus comme streaming les données dans des lots de 100.
- lien à l'intérieur de votre réponse est cassé. Pouvez-vous modifier/corriger?
- M'a fallu un certain temps pour trouver le même commentaire. Cela fait presque 5 ans, et Mongoid depuis a basculé à partir de GitHub Questions de JIRA. Je crois que j'ai trouvé le commentaire approprié.
InformationsquelleAutor Ryan McGeary
6

Si vous êtes une itération sur une collection où chaque enregistrement nécessite beaucoup de traitement (j'.e l'interrogation d'une API externe pour chaque élément), il est possible pour le curseur de délai d'attente. Dans ce cas, vous devez effectuer plusieurs requêtes afin de ne pas laisser le curseur ouvert.
```
require 'mongoid'

module Mongoid
  class Criteria
    def in_batches_of(count = 100)
      Enumerator.new do |y|
        total = 0

        loop do
          batch = 0

          self.limit(count).skip(total).each do |item|
            total += 1
            batch += 1
            y << item
          end

          break if batch == 0
        end
      end
    end
  end
end
```
Ici est une méthode d'assistance que vous pouvez utiliser pour ajouter le dosage de la fonctionnalité. Il peut être utilisé comme:
```
Post.all.order_by(:id => 1).in_batches_of(7).each_with_index do |post, index|
  # call external slow API
end
```
Assurez-vous de TOUJOURS avoir un order_by sur votre requête. Sinon, la pagination ne pourrait pas faire ce que vous voulez. Aussi je m'en tiendrais à des lots de 100 ou moins. Comme dit dans la accepté de répondre à Mongoid requêtes par lots de 100, de sorte que vous ne voulez jamais laisser le curseur ouvert tout en faisant de la transformation.
- Le .no_timeout méthode sur des critères qui vous évite d'avoir à se reconnecter manuellement: Post.all.order_by(:id => 1).batch_size(7).no_timeout.each_with_index do ...
InformationsquelleAutor HaxElit
5

Il est plus rapide d'envoyer des lots de taches solaires ainsi.
C'est comment je le fais:
```
records = []
Model.batch_size(1000).no_timeout.only(:your_text_field, :_id).all.each do |r|
  records << r
  if records.size > 1000
    Sunspot.index! records
    records.clear
  end
end
Sunspot.index! records
```
no_timeout: empêche le curseur pour déconnecter (au bout de 10 min, par défaut)

only: sélectionne uniquement les id et les champs, qui sont en fait indexés

batch_size: extraction de 1000 entrées au lieu de 100
- n'oubliez pas de 'Taches solaires.index! les dossiers " après la boucle, on peut ne pas indexer le dernier groupe de < 1000 je crois
- Correct. J'ai oublié de copier cette partie.
InformationsquelleAutor Mic92
2

Je ne suis pas sûr que le traitement par lots, mais vous pouvez le faire de cette façon
```
current_page = 0
item_count = Model.count
while item_count > 0
  Model.all.skip(current_page * 1000).limit(1000).each do |item|
    Sunpot.index(item)
  end
  item_count-=1000
  current_page+=1
end
```
Mais si vous êtes à la recherche pour une parfaite longtemps solution, je ne recommanderais pas cela. Laissez-moi vous expliquer comment j'ai manipulé le même scénario dans mon application. Au lieu de faire les travaux par lots,
- j'ai créé un resque travail qui met à jour l'index solr
```
class SolrUpdator
 @queue = :solr_updator

 def self.perform(item_id)
   item = Model.find(item_id)
   #i have used RSolr, u can change the below code to handle sunspot
   solr = RSolr.connect :url => Rails.application.config.solr_path
   js = JSON.parse(item.to_json)
   solr.add js         
 end
```
  fin
- Après l'ajout de l'article, je viens de mettre une entrée à la resque file d'attente
```
Resque.enqueue(SolrUpdator, item.id.to_s)
```
- C'est tout, de démarrer les resque, et il prendra soin de tout
- Ramesh, le premier bloc de code que vous avez fourni fonctionne très bien pour mon cas d'utilisation. C'est juste un one-temps de charge et l'indice des données à l'aide d'un fichier de script, l'utilisation d'un resque peut-être exagéré pour mon cas particulier. Mais le dosage capacité fonctionne parfaitement!
- heureux, il a aidé. 🙂
- Ce n'est pas nécessaire. Mongoid et le sous-jacent Mongo pilote déjà lot de requêtes avec un curseur. Cela permet de maintenir le faible empreinte mémoire.
InformationsquelleAutor RameshVel
0

La suite va travailler pour vous , il suffit de l'essayer
```
Model.all.in_groups_of(1000, false) do |r|
  Sunspot.index! r
end
```
- Le chargement de toutes les base de données en mémoire... duh. Le point entier de ce qui est d'être en mesure de rechercher des documents dans les lots, si vous avez 4 millions de documents, vous allez tuer votre serveur en chargeant d'abord dans un seul tableau, puis un autre tableau de groupes.
- veuillez vérifier la solution ci-dessus , la même que j'ai donné, il a expliqué. merci pour l'explication Ryan McGeary.
InformationsquelleAutor ratnakar
-3

Comme @RyanMcGeary dit, vous n'avez pas besoin de vous soucier de dosage de la requête. Cependant, l'indexation des objets un à un moment est d'autant plus faible que le dosage entre eux.
```
Model.all.to_a.in_groups_of(1000, false) do |records|
  Sunspot.index! records
end
```
- Model.all.to_a charge l'ensemble de la collection dans la mémoire.
- C'est vrai, merci de ne pas faire ceci: Lorsque nous parlons de grands ensembles de données d'éviter la conversion de toute la collection de tableau à la fois: l'utilisation Model.find_each ou le lot, mais en aucune façon jamais Model.all.to_a
- De modèle.find_each n'est pas un Mongoid méthode. Vous utilisez le Modèle.tous les.chaque place.
InformationsquelleAutor Derek Harmel

Vous devez vous connecter pour publier un commentaire.