hadoop vs teradata quelle est la différence

J'ai touché un Teradata. Je n'ai jamais touché hadoop, mais depuis hier, j'ai fais quelques recherches sur le sujet. Par la description de tous les deux, ils semblent tout à fait interchangeables, mais, dans certains documents, il est écrit qu'ils servent à des fins différentes. Mais tout ce que je trouve est vague. Je suis confus.

Quelqu'un a de l'expérience avec les deux? Quelle est la différence sérieuse entre eux?

Exemple Simple: je veux construire ETL qui va transformer des milliards de lignes de données brutes et de les organiser en DWH. Puis faire un peu de ressources coûteuses analyse sur eux. Pourquoi utiliser de la TD? Pourquoi Hadoop? ou pourquoi pas?

Est vos données brutes structurées ou non structurées? Qu'est-ce que le taux d'arrivée de ces données? Pouvez-vous expliquer ce qu'cher des moyens d'analyse? Quel est votre niveau de service de l'attente pour cette analyse soit terminée à l'intérieur? Votre société dispose d'une base existante des individus avec des compétences en SQL, R, SAS et/ou de modélisation prédictive? Il existe des différences importantes entre les deux. Il s'agit de comprendre si votre entreprise problème peut être résolu par la traditionnelle SGBDR paradigme de la modélisation de données -> ETL -> google Analytics avec SQL ou si vous avez besoin de quelque chose de plus que MapReduce peut fournir.
Les données brutes sont structurés. Taux d'arrivée est chaque jour un couple de grandes quantités de données. Cher analyse: CPU cher avec une certaine requête cher préarrangements des données (ETL données structurées à l'abstrait de données pour les algorithmes on peut dire), mais ces analyses permettront de courir à l'extérieur dans certaines applications spécifiques, de sorte qu'il n'est pas pertinent. Mais l'essentiel de ma question est: Teradata est vraiment cher. Puis-je remplacer Teradata par Hadoop dans des secteurs comme la banque, avec la possibilité de le même rendement, sans de graves risques(coûts supplémentaires de mise en œuvre ou même certains de défaillance imprévisibles, etc)?
Ils jouent tous les deux le long. Il y a des domaines où Teradata est recommandé et les zones où Hadoop est. Teradata est en train de passer à un Architecture Unifiée de sorte que les deux Hadoop et Teradata peuvent être intégrés et peuvent se compléter les uns les autres.

OriginalL'auteur John | 2013-01-31

7

Je pense que cet article intitulé "MapReduce et Parallèle Sgbd: Amis ou Ennemis" n'a tout à fait un bon travail de décrire les situations où chaque technologie qui fonctionne le mieux. En un mot, Hadoop est excellent pour le stockage de données non structurées et de l'exécution en parallèle des transformations à " désinfecter des entrées de données, Sgbd excel lors de l'exécution de requêtes complexes rapidement.

chemin à parcourir ryanbwork! cela a aidé beaucoup! Keep it up! muah!
tu m'a appris un nouveau badge lol
vous le méritez! j'aime la lecture de votre travail!
êtes-vous ivre SOing maintenant??
je souhaite que mon travail était cool

OriginalL'auteur ryanbwork
3

Hadoop Hadoop avec des Extensions, SGBDR Fonctionnalité/Propriété de la Comparaison de

Je ne suis pas un expert dans ce domaine, mais dans le coursera.com cours, Introduction à la Science des Données, il y a une conférence intitulée: Comparaison de MapReduce et les Bases de données ainsi qu'une conférence sur le Parallèle des bases de données à l'intérieur de la carte de réduire la section du cours.

Voici un résumé de ces conférences sur la comparaison de MapReduce vs SGBDR (pas nécessairement parallèle RDMBS).
Un point à retenir est que la comparaison est différente si vous incluez des extensions de Hadoop comme PIG, Hive, etc. Je vais mettre en () MapReduce extensions qui ajoutent certaines de ces fonctionnalités/propriétés.

Certaines fonctionnalités/propriétés de ce SGBDR, mais non natif MapReduce:
- Declaritive les langages de requête -(Pig, HIVE)
- Schémas (Hive, Pig, DyradLINQ, Hadapt)
- Logique De Données De L'Indépendance
- D'Indexation (Hbase)
- Algébrique d'Optimisation (de Porc, de la Dryade, la RUCHE)
- De Cache Et De Vues Matérialisées
- ACIDE/Transactions
MapReduce (par rapport à régulier SGBDR pas nécessairement Parallèle RDMBS)
- Haute Évolutivité
- De la tolérance de pannes
- “Une personne de déploiement”
OriginalL'auteur Yaniv
1

Pour Commencer, la Vanille Apache Hadoop est 100% open source. Mais si vous avez besoin d'un soutien commercial avec consultance il y a des entreprises comme Cloudera, MapR, hortonworks a, etc.

Hadoop est soutenu par une communauté grandissante correction des bugs et apporter des améliorations sur une base cohérente. Hadoop modèle de stockage de HDFS est basé sur Google GFS architecture qui est prouvé pour traiter de grandes quantités de données. En outre Hadoop modèle d'analyse de la Carte de Réduire est basé sur Google Carte De Réduire Modèle.

Hadoop est utilisé par les Géants de la Technologie comme Facebook, Yahoo, Twitter, EBay, etc pour stocker et l'analyse qu'ils volume élevé de données en temps réel ainsi que de manière passive.

Pour votre question ETL systèmes de lire ces les diapositives où vous verrez.

Ok, maintenant, Pourquoi Hadoop?
1. Open Source
2. Éprouvée de Stockage et d'Analyse de modèle pour les Grandes Quantités de données
3. Configuration Matérielle minimale requise pour installer et exécuter.
Ok, maintenant, Pourquoi TD?
1. Support Commercial
Ok, maintenant, dans votre bonne réponse, je ne suis qu'manquant "OK, maintenant, Pourquoi Teradata?"
Deux nitpicks: il y a beaucoup de support commercial pour Hadoop ainsi, Hadoop et MapReduce est hors-ligne de lot analytics pas en temps réel les requêtes.
Oui, je l'ai mentionné sur le support commercial hadoop a, et je faisais allusion à temps réel des requêtes par le biais de l'aide de HBase au-dessus d'Hadoop HDFS, pas de Carte de Réduire de modèle sur le dessus de HDFS.

OriginalL'auteur shazin
0

J'ai posé cette question à plusieurs reprises, la réponse que je donne habituellement est une voiture analogie (ce qui est assez idiot parce que je ne suis pas une voiture, mais il semble fonctionner)
- Teradata est la voiture/sgbd pour les masses - il est fiable, mature, fonctionne bien et qui est toujours là quand vous en avez besoin. Il est difficile (par rapport à Hadoop) pour personnaliser et ajouter des fonctionnalités au produit de base.
- Hadoop est la voiture/sgbd pour les passionnés - il n'est pas fiable ou mature, ça fonctionne bien aussi longtemps que vous le faites. Il est facile (par rapport à Teradata) pour personnaliser et ajouter des fonctionnalités au produit de base.
Mettre une autre manière, Teradata est l'outil de travail fiable où vous avez mis votre mission critique du processus (reporting opérationnel, création de rapports d'entreprise, aide à la décision, etc).
Hadoop est l'endroit où vous pouvez faire beaucoup de ce genre de choses, mais ne soyez pas surpris si vous venez dans l'une le matin et de trouver que vos rapports réglementaires ne peut pas être produit parce que quelqu'un a appliqué un patch ou vous avez soudainement eu un "trop grand nombre de petits fichiers" problème.

Pour revenir à l'analogie, si vous ne voulez pas être trop irritable et les fabricants de produits (sgbd et/ou en voiture) fonctionne pour vous sortir de la boîte, Teradata est une bonne option.
D'autre part, si vous aimez bricoler sous le capot, de changer le carburateur (ou autre), de régler les rapports de vitesse, d'ajuster le mélange air-carburant selon que vous êtes du pays ou de la conduite en ville, un boulon sur un chargeur de Turbo et/ou votre famille de se plaindre du temps que vous passez dans le garage le week - end- Hadoop est l'endroit pour vous.

À mon humble avis, la Plupart, si pas toutes les organisations ont besoin à la fois.
J'espère que cela aide 🙂

OriginalL'auteur GMc

Vous devez vous connecter pour publier un commentaire.

Hadoop Hadoop avec des Extensions, SGBDR Fonctionnalité/Propriété de la Comparaison de