Avantages et Inconvénients de l'utilisation de MongoDB à la place de MS SQL Server

Je suis nouveau sur le monde NoSQL et de la pensée de remplacer mon MS Sql Server base de données MongoDB. Ma demande (écrite .Net C#) interagit avec des Caméras IP et des enregistrements de méta-données pour chaque image provenant de la Caméra, dans la Base de données MS SQL. En moyenne, je suis de l'insertion sur 86400 d'enregistrements par jour pour chaque caméra et dans l'actuel schéma de base de données, j'ai créé table séparée pour séparer les images de la Caméra, par exemple Camera_1_Images, Camera_2_Images ... Camera_N_Images. Une seule image disque se compose de métadonnées simples info. comme AutoId, Chemin d'accès, CreationDate. Pour ajouter plus de détails à la présente, ma candidature initie le processus distinct (.exe) pour chaque appareil et chaque processus insère 1 enregistrement par seconde relative de la table dans la base de données.

J'ai besoin de suggestions de (MongoDB) experts sur les préoccupations suivantes:

de dire si MongoDB est bon pour la tenue de ces données, qui finira par être vérifiés à des intervalles de temps (par exemple, de récupérer toutes les images d'un appareil photo entre une heure précise)? Toutes les suggestions sur le Document de Base de la conception d'un schéma pour mon cas?
De ce que devraient être les spécifications du serveur (CPU, RAM, Disque)? toute suggestion?
Devrais-je envisager de Fragmentation/Répétition de ce scénario (tout en tenant compte de la performance dans l'écriture pour synchroniser les jeux de réplicas)?
Existe-il des avantages de l'utilisation de plusieurs bases de données sur la même machine, de sorte que la base de données permettra de garder des images de la journée pour toutes les caméras, et le second sera utilisé pour archiver jour précédent images? Je pense à en ce qui concerne le fractionnement du lit et écrit sur des bases de données distinctes. Parce que toutes les demandes de lecture peut être servi par seconde base de données et écrit à la première. Un profit ou pas? Si oui, alors une idée pour s'assurer que les deux bases de données sont synchronisées toujours.

Toutes les autres suggestions sont les bienvenues merci.

stackoverflow.com/questions/1476295/...
developer.olery.com/blog/goodbye-mongodb-hello-postgresql
Surpris de voir un subjective de la question comme cela pas voté pour la fermeture. mais question de bien.

InformationsquelleAutor theGeekster | 2012-11-02

29

Je suis moi-même un démarreur sur les bases de données NoSQL. Donc, je réponds à ce au détriment de la des voix, mais il sera d'une grande expérience d'apprentissage pour moi.

Avant d'essayer de mon mieux pour répondre à vos questions, je dois dire que si MS
SQL Server fonctionne bien pour vous, alors restez avec lui. Vous n'avez pas
mentionné aucune raison valable pour laquelle vous souhaitez utiliser MongoDB, sauf le fait
que vous avez appris à ce sujet comme un document orienté db. De plus je vois
que vous avez presque le même ensemble de méta-données de capture pour
chaque caméra, c'est à dire votre schéma est dynamique.
- de dire si MongoDB est bon pour la tenue de ces données, qui finira par être vérifiés à des intervalles de temps (par exemple, de récupérer toutes les images d'un appareil photo entre une heure précise)? Toutes les suggestions sur le Document de Base de la conception d'un schéma pour mon cas?
MongoDB être un document orienté db, il est bon à l'interrogation dans un agrégat (vous l'appelez document). Puisque vous êtes déjà stockage de chaque caméra de données dans sa propre table, dans MongoDB, vous disposerez d'une collection créé pour chaque caméra. Voici comment vous effectuez de la plage de dates des requêtes.
- De ce que devraient être les spécifications du serveur (CPU, RAM, Disque)? toute suggestion?
Toutes les bases de données NoSQL sont construits pour scale-out sur le matériel de base. Mais par la façon dont vous avez posé la question, vous pensez peut-être de l'amélioration de la performance par de la généralisation de la. Vous pouvez commencer avec une machine et à mesure que la charge augmente, vous pouvez continuer à ajouter plus de serveurs (mise à l'échelle-out). Vous n'avez besoin de planifier et d'acheter un haut de gamme serveur.
- Devrais-je envisager de Fragmentation/Répétition de ce scénario (tout en tenant compte de la performance dans l'écriture pour synchroniser les jeux de réplicas)?
MongoDB les verrous de l'ensemble de la db pour une seule écriture (mais les rendements pour d'autres opérations) et est conçu pour les systèmes qui ont plus de lectures que de l'écrit. Donc, cela dépend de la façon dont votre système est. Il existe de multiples façons de la fragmentation, et doit être spécifique au domaine. Une réponse générique n'est pas possible. Cependant, certains exemples peuvent être donnés, comme celui de la fragmentation, par la géographie, par les branches etc.

Également lire Un anglais simple introduction au Théorème CAP

Mis à jour avec de réponse pour le commentaire sur la fragmentation

En fonction de leur la documentation, Vous devriez envisager le déploiement d'une fragmenté cluster, si:
- votre jeu de données avoisine ou dépasse la capacité de stockage d'un seul nœud dans votre système.
- la taille de votre système active de l'ensemble de travail va bientôt dépasser la capacité maximum de la quantité de mémoire vive de votre système.
- votre système dispose d'une grande quantité de l'activité d'écriture, un seul MongoDB instance ne peut pas écrire de données assez rapidement pour répondre à la demande, et tous les autres
  approches n'ont pas réduit la contention.
Basé sur le dernier point, oui. L'auto-partage est intégrée à l'échelle de l'écrit. Dans ce cas, vous avez un verrou en écriture par éclat, pas par base de données. Mais le mien est une réponse théorique. Je vous suggère de prendre de la consultation de 10gen.com groupe.
- Bonne réponse encore, la seule chose que je conseillerais, c'est que MongoDB, selon la taille de l'index (etc) a une limite max. de la collections par DB sur par défaut c'est ns taille (ce qui est recommandé de garder à l') d'environ 18K collections et depuis sharding fonctionne bien sur la seule collection de base, il semble une bonne idée pour promouvoir l'utilisation d'une collection unique pour toutes les caméras. Cependant +1 vous apporter quelques bon point comme le verrouillage, etc.
- Pouvez-vous me dire, si je peux éviter de r/w de verrouillage en utilisant Fragment séparé pour chaque caméra. Signifie avoir près de 100 éclats sur la même machine? Je demande parce que je viens de lire sur le web que Mongo a de verrouillage séparée pour chaque fragment.
- voir mon edit
InformationsquelleAutor Aravind R. Yarram
4

de dire si MongoDB est bon pour la tenue de ces données, qui a finalement
seront vérifiés à des intervalles de temps (par exemple, de récupérer toutes les images d'un
appareil photo en particulier entre une heure précise)?

Ce quiestion est trop subjectif pour me répondre. Par expérience personnelle, avec de nombreux SQL solutions (ironiquement pas MS SQL), je dirais qu'ils sont à la fois tout aussi bien, si c'est bien fait.

Aussi:

De ce que devraient être les spécifications du serveur (CPU, RAM, Disque)? toute suggestion?

Dépend de trop de variables que vous seul connaissez, cependant un petit cluster de matériel de base fonctionne très bien. Je ne peux pas vraiment donner une réponse factuelle à cette question et il sera de votre test.

Comme pour un schéma je voudrais aller un document de la structure:
```
{
    _id: {},
    camera_name: "my awesome camera",
    images: [
        { 
            url: "http://I_like_S3_here.amazons3.com/my_image.png" ,
            //All your other fields per image
        }
    ]
}
```
Cela devrait être assez facile à mantain et la mise à jour tant que vous n'êtes pas l'incorporation de beaucoup plus profond car alors il pourrait devenir un peu de douleur, cependant, cela dépend de vos requêtes.

Non seulement cela, mais cela devrait être bon pour la fragmentation, puisque vous disposez de toutes les données dont vous avez besoin dans un document, si vous étiez à tesson _id vous pourriez probablement obtenir la configuration parfaite ici.

Devrais-je envisager de Fragmentation/Répétition de ce scénario (tout en tenant compte de la performance dans l'écriture pour synchroniser les jeux de réplicas)?

Éventuellement, de nombreuses personnes pensent qu'ils ont besoin d'éclat alors qu'en réalité, ils ont juste besoin d'être plus intelligent dans la façon de concevoir la base de données. MongoDB est très en forme libre donc il ya beaucoup de façons de le faire mal, mais cela étant dit, il ya aussi beaucoup de façons de dong droit. Personnellement, je voudrais garder la fragmentation à l'esprit. La réplication peut être très utile aussi.

Existe-il des avantages de l'utilisation de plusieurs bases de données sur la même machine, de sorte que la base de données permettra de garder des images de la journée pour toutes les caméras, et le second sera utilisé pour archiver jour précédent images?

Même si MongoDBs verrou d'écriture est sur le niveau de DB (actuellement) je dirais: Non. Le droit de la structure du document et le droit de fragmentation/réplication (si nécessaire) doit être en mesure de les traiter dans un seul document, en fonction de la collection(s) sous un seul DB. Non seulement cela, mais vous pouvez diriger les écritures et lectures à l'intérieur d'un cluster certains serveurs afin de créer une simultanéité entre certaines machines dans votre cluster. Je voudrais promouvoir l'utilisation correcte des MongoDBs simultanéité dispose de plus de DB séparation.

Modifier

Après la lecture de la question encore une fois j'ai omis de ma solution que vous insérez 80k+ les images de chaque caméra, un jour. En tant que tel, au lieu de l'option intégrée en fait, je peux faire une ligne par image dans une collection appelée images et puis un camera de collecte et d'interroger les deux comme vous le feriez dans SQL.

La fragmentation, la images collection devrait être tout aussi facile sur camera_id.

Aussi, assurez-vous que vous prenez de travail mis en examen avec votre serveur.
- Ne MongoDB utilisation de verrouillage séparée pour chaque fragment? et s'il y a une limite sur le nombre de tessons de base de données unique sur un seul ordinateur?
- Je crois que cela répond à vos questions: mongodb.org/display/DOCS/How+ne+simultanéité+travail les MongoS est un fragment tandis que le Mongod est la base de données sur ce fragment. C'est donc un verrouillage par fragment, mais ce fragment a verrouillage de base de données. Que je sache il n'existe qu'une limite de répliques, pas d'éclats: stackoverflow.com/questions/8686420/...
- Pouvez-vous nous expliquer un peu comme vous l'avez dit: "c'est Donc un verrouillage par fragment, mais ce fragment a verrouillage de base de données" ? Aussi votre suggestion pour la fragmentation sur camera_id, est-ce à dire une collection unique d'images sera divisé par MongoDB sur les différents fragments (1 éclat pour 1 caméra)? Est-ce mieux de 1 pour 1 appareil photo et d'utiliser camera_id en tant que fragment de clé? (car le nombre d'images pour 1 caméra sera assez élevé comme 30,00,000).
- Il devrait signifier un éclat par la caméra, cependant MongoDB peut déplacer des morceaux à leur meilleur ajustement de la position en fonction de l'espace sur les serveurs. Comme pour le verrouillage cela signifie que chaque mongod, c'est un fragment de cluster ne peut pas répondre à d'autres verrous en écriture (read lock est en même temps) alors qu'ils sont utilisés, mais chaque mongod au sein de ce cluster est inpedendant sorte que vous pouvez écrire un ordinateur et l'autre en même temps. C'est pourquoi il est essentiel d'avoir un fragment de la clé que les soldes de l'écrit à travers tous les fragments (si cela est méga important)
- Bien que le fait d'être sur mon précédent sur la fragmentation camera_id, vous pouvez également gérer MongoDBs sharding vous-même, comme je l'ai dit MongoDB est très libre, cependant, vous devriez vous concentrer sur le débutant d'abord au lieu de la plongée directement dans la prise de MongoDB split morceaux de la façon dont vous voulez manuellement.
InformationsquelleAutor Sammaye
3

de dire si MongoDB est bon pour la tenue de ces données, qui a finalement
seront vérifiés à des intervalles de temps (par exemple, de récupérer toutes les images d'un
appareil photo en particulier entre une heure précise)? Toutes les suggestions sur
Document de Base de la conception d'un schéma pour mon cas?

MongoDB peut le faire. Pour de meilleures performances, vous pouvez définir un index sur votre champ de temps.

De ce que devraient être les spécifications du serveur (CPU, RAM, Disque)? toute suggestion?

Je pense que la RAM et le Disque serait important.
- Si vous ne voulez pas faire sharding à scale out, vous devriez envisager une plus grande taille de disque de sorte que vous pouvez stocker toutes vos données.
- Votre hot de données devrait peut s'intégrer dans votre mémoire RAM. Si pas, alors vous devriez envisager une plus grande mémoire vive, car la performance de MongoDB dépend principalement de RAM.
Devrais-je envisager de Fragmentation/Répétition de ce scénario (alors que
compte tenu du rendement en écriture pour synchroniser les jeux de réplicas)?

Je ne sais pas beaucoup de caméras de vous avez, même 1000 insertions/seconde avec un total de 1000 caméras doivent toujours être facile à MongoDB. Si vous êtes relatives à la performance de l'insert, je ne pense pas que vous avez besoin de faire sharding(à l'Exception de la taille des données sont trop gros, que vous avez à les séparer en plusieurs machines).

Un autre problème est la lecture de la fréquence de votre application. Il est très élevé, alors vous pouvez envisager de fragmentation ou de la réplication ici.
Et vous pouvez utiliser (timestamp + camera_id) que votre clé de sharding si votre requête sur une seule caméra dans un intervalle de temps.

Existe-il des avantages de l'utilisation de plusieurs bases de données sur la même machine, donc
qu'une base de données de garder des images de la journée pour toutes les caméras, et
la seconde va être utilisé pour archiver jour précédent images?

Vous pouvez séparer le tableau en deux collections(archive et current). Et index du jeu uniquement sur archive si vous n'requête date de archive. Sans les frais de création de l'index, le current collection devrait bénéficier avec insert.

Et vous pouvez écrire un programme quotidien pour vider les current données dans archive.
- Merci pour le réponse, en fait je pensais sur les mêmes lignes de diviser les données en deux groupes (aujourd'hui/actuel et archive/vieux). Et ma lecture de la fréquence est en moyenne de 1% à 2 secondes. 1: Pour les plaquettes je peux supposer que MongoDB v2.2 n'aura pas de problèmes au taux de 1000/seconde, mais ce qu'il va faire avec les demandes de LECTURE en même temps (ça va pas verrouiller le lit)? Comment puis-je éviter cette lecture de verrouillage lorsque les écritures sont toujours en cours. 2: Que pensez-vous si je fais deux bases de données distinctes/éclats (actuelles et d'archives) à séparer les verrous? Ensuite, toujours écrire à courant éclat..
- ... puis toujours écrire à courant tesson (avec des index sur datetime) et à la fin de la journée déplacer toutes les données de courant fragment d'archives. Le lit pour la journée en cours sera servi par l'actuel éclat et pour les jours précédents, sera servi par les archives éclat. Ici, je peux penser à quelques préoccupations, 1) lit pour le courant de l'époque sont toujours vulnérables à r/w serrures, 2), deux fragments sur la même machine peut-lieu de la Mémoire des conflits entre les deux pour les écritures et les lectures et les index, 3) en fin de journée si le déplacement des données à partir de l'actuel fragment d'archive prendre quelques minutes, doit-lit pendant ce temps goto actuel ou de l'archive?
InformationsquelleAutor Chien-Wei Huang

Vous devez vous connecter pour publier un commentaire.

Modifier