La base de données de choix pour les gros volume de données?

Je suis sur le point de commencer un nouveau projet, qui devrait disposer d'une assez grande base de données.

Le nombre de tables ne seront pas large (<15), la majorité des données (99%) est contenue dans une grande table, ce qui est presque insérer/en lecture seule (pas de mises à jour).

L'estimation de la quantité de données dans une table va croître à 500.000 dossiers un jour, et nous devons nous tenir au moins 1 an d'entre eux pour être en mesure de faire différents rapports.

Il doit y avoir (en lecture seule) répliqué base de données de sauvegarde/de basculement, et peut-être pour le déchargement des rapports dans les heures de pointe.

Je n'ai pas l'expérience de première main avec de grandes bases de données, donc je demande à ceux qui ont de la DB qui est le meilleur choix dans cette situation. Je sais que Oracle est la valeur sûre, mais je suis plus intéressé si quelqu'un a une expérience avec Postgresql ou Mysql similaires l'installation.

InformationsquelleAutor Marko | 2009-03-10

27

J'ai utilisé PostgreSQL dans un environnement où nous assistons à 100K-2M de nouvelles lignes par jour, en plus ajouté à une seule table. Cependant, ces lignes ont tendance à être réduite à des échantillons, puis supprimée dans quelques jours, donc je ne peux pas parler de performance à long terme avec plus de ~100M lignes.

J'ai trouvé que la performance de l'insert est tout à fait raisonnable, surtout si vous utilisez la COPIE en bloc. Les performances de la requête est bien, bien que le choix de l'aménageur rend parfois le puzzle de moi, en particulier lorsqu'faire des Jointures /EXISTE. Notre base de données nécessite assez un entretien régulier (à VIDE/ANALYSER) pour en assurer le bon déroulement. J'ai pu éviter certains de cela plus soigneusement, optimisation de l'autovacuum et d'autres paramètres, et ce n'est pas un problème en soi si vous ne faites pas beaucoup de Suppressions. Dans l'ensemble, il y a des domaines où je pense que c'est plus difficile à configurer et à maintenir ce qu'il devrait être.

Je n'ai pas utilisé Oracle et MySQL uniquement pour les petits jeux de données, donc je ne peux pas comparer les performances. Mais PostgreSQL ne travail amende pour grands ensembles de données.

InformationsquelleAutor DNS
8

Avez-vous un exemplaire de "Le Data Warehouse Toolkit"?

La suggestion à faire ce qui suit.
1. De séparer les faits (mesurables, numérique) les valeurs des dimensions qui se qualifier ou d'organiser ces faits. Une grande table n'est pas vraiment la meilleure idée. C'est un fait de la table qui domine la conception, plus un certain nombre de petites tables de dimension pour permettre de "trancher et couper en dés les faits".
2. Garder les faits dans de simples fichiers à plat jusqu'à ce que vous voulez faire de type SQL reporting. Ne pas créer et sauvegarder une base de données. Créer et sauvegarder des fichiers; charger une base de données uniquement pour les rapports, vous devez le faire à partir de SQL.
3. Si possible créer résumé ou extra datamarts pour l'analyse. Dans certains cas, vous pouvez avoir besoin de charger le tout dans une base de données. Si vos fichiers de refléter votre conception de table, toutes les bases de données en bloc chargeur d'outils qui peuvent remplir d'index et de tables SQL à partir des fichiers.
- Actuellement, je l'ai stocké mes données dans les fichiers uniquement et tous les jours il y aura autour de 50k de nouvelles entrées. Maintenant, je veux utiliser ces données pour les rapports. La plupart des rapports de recherche de l'ensemble, car elle contient seulement 3 à 4 champs donc pas de rejoindre..Que dois-u suggèrent??
InformationsquelleAutor S.Lott
6

Google BigTable de la base de données et Hadoop sont deux moteurs de base de données qui peut gérer de grandes quantités de données.
- Ceux ne sont pas des bases de données SQL. Comment font-ils pour tarif wrt rapports?
- Je n'ai pas d'expérience directe dans la programmation de ces deux moteurs, mais de ce que je comprends à la lecture de documents en ligne, ils ont un avantage sur SQL quand il s'agit de la sélection des données spécifiques de grande base de données. Je vais chercher les papiers à mon disque dur à la maison et voir si je peux le poster ici.
- Peut BigTable être utilisé en dehors de Google AppEngine?
InformationsquelleAutor MrValdez
6

La quantité de données (200 m par an) n'est pas vraiment grand et doit aller avec n'importe quel standard de moteur de base de données.

Le cas est encore plus facile si vous n'avez pas besoin de vivre dans leurs rapports. J'avais miroir et preaggregate de données sur un autre serveur dans quotidiennes par exemple lot. Comme S. Lott a suggéré, vous pouvez lire sur l'entreposage de données.
- Il y a d'autres considérations peuvent tout simplement ", peut-on stocker 200 m records". Bien sûr, la plupart des bases de données peut gérer cela, mais pas tout gérer tout aussi bien, qui est vraiment ce que l'OP est de demander. J'ai utilisé à la fois MySQL et PostgreSQL pour ce PostgreSQL et gagne haut la main. Dans mon expérience, PG exécute des requêtes (en particulier les complexes) sur de grandes tables plus rapidement et de vidage/charger du contenu plus rapidement.
InformationsquelleAutor user76035
6

Quelques points intéressants concernant Google BigTable il y a...

Bigtable Vs SGBD
- Rapide de la Requête taux
- Pas de Joint, Pas de prise en charge SQL, base de données orientée colonne
- Utilise un Bigtable au lieu d'avoir plusieurs tables normalisées
- N'est même pas en 1FN dans un point de vue traditionnel
- Conçu pour prendre en charge l'historique des requêtes champ timestamp => ce que fait cette page web ressembler à hier ?
- La compression des données est plus facile –les lignes sont rares
J'ai mis en évidence les Jointures et Pas de prise en charge SQL comme vous l'avez mentionné, vous devez exécuter une série de rapports. Je ne sais pas combien (le cas échéant) de ne pas avoir la abililty à faire que cela va avoir sur vous en cours d'exécution de rapports si vous utilisez ce.
- Google BigTable de Présentation n'est plus disponible...
InformationsquelleAutor kevchadders
5

Nous utilisons Firebird pour un vraiment énorme base de données (conservation des données pendant plus de 30 ans maintenant) et il évolue très bien.

Le meilleur, c'est que vous avez propriétés pour configurer, mais contrairement à à savoir Oracle de l'installer et il fonctionne très bien sans la nécessité de commencer la configuration avant de pouvoir l'utiliser.

InformationsquelleAutor Xn0vv3r

Vous devez vous connecter pour publier un commentaire.