Amazon EC2 vs Amazon EMR
J'ai mis en place une tâche dans la Ruche. Actuellement, il fonctionne très bien sur mon seul nœud de cluster.
Maintenant, j'ai l'intention de le déployer sur AWS.
Je ne sais rien à propos de l'AWS. Si j'ai l'intention de déployer alors que dois-je choisir Amazon EC2 et Amazon EMR?
Je veux améliorer les performances de ma tâche. Lequel est le mieux et fiable pour moi? Comment l'approche vers eux? J'ai entendu dire que nous pouvons également vous inscrire à notre VM paramètre qu'il est sur AWS. Est-il possible?
Veuillez me suggérer dès que possible.
Merci Beaucoup.
N'est-ce pas plus d'un SysAdmin question que d'une programmation à la question...?
Deviner à partir de la "dès que possible" à la fin de votre question, peut-être que vous devriez essayer d'en envoyant un courriel à la question de votre entreprise plate-forme de l'équipe de soutien à la place 😉
Deviner à partir de la "dès que possible" à la fin de votre question, peut-être que vous devriez essayer d'en envoyant un courriel à la question de votre entreprise plate-forme de l'équipe de soutien à la place 😉
OriginalL'auteur Bhavesh Shah | 2012-04-11
Vous devez vous connecter pour publier un commentaire.
DME est une collection d'instances EC2 avec Hadoop (et éventuellement de la Ruche et/ou de Porc) installé et configuré sur eux. Si vous utilisez votre cluster pour l'exécution de Hadoop/Ruche/Cochon d'emplois, EMR est le chemin à parcourir. Un système de DME coûts d'instance un peu plus par rapport à une instance EC2. Une vérification rapide sur Amazon prix aujourd'hui révèle qu'un petit instances EC2 coûts à 0,08 $/heure alors qu'une petite DME coûts d'instance de 0,015 $/heure supplémentaire.
À mon avis, il vaut la peine de payer cet argent supplémentaire pour vous épargner les tracas de l'installation et de la configuration de Hadoop (avec Hive et Pig), la création et le maintien et l'AMI et de l'utiliser. En outre, EMR version d'Hadoop et de la Ruche a quelques patchs qui ne sont pas disponibles (au moins, pas encore) sur un serveur Apache Hive. Si vous utilisez EC2, vous serez probablement en utilisant Apache Hadoop et de la Ruche (ou peut-être, la cloudera distributions) et n'ont pas accès à ces patchs (comme la prise en charge native pour les S3 ou des commandes comme
ALTER TABLE my_table RECOVER PARTITIONS
Références:
OriginalL'auteur Mark Grover
Je voudrais vous suggérer de ne PAS essayer et de déployer votre propre cluster Hadoop, sauf si vous avez 2 ou 3 mois à revendre, et vous avez une hadoop d'experts à portée de main.
Elastic MapReduce vous permettra de commencer très rapidement en offrant un pré-configuré l'environnement hadoop. Voyant que vous n'avez qu'une seule tâche, elle doit être fine.
OriginalL'auteur Matthew Rathbone
En général, historiquement, EMR était assez loin derrière les dernières versions des composants Hadoop, et certains ont été complètement absent. C'est la principale raison de l'utilisation d'une autre distribution. Par exemple, si vous vouliez HBase, il n'était pas dans DME, mais pas qu'il est. Aujourd'hui, la Spark est absent de DME. DME généralement gal.
Cela dit, si vous n'êtes pas en utilisant les dernières et les meilleures fonctionnalités, rendez-vous avec les EMR.
OriginalL'auteur pwy