Amazon EC2 vs Amazon EMR

J'ai mis en place une tâche dans la Ruche. Actuellement, il fonctionne très bien sur mon seul nœud de cluster.
Maintenant, j'ai l'intention de le déployer sur AWS.

Je ne sais rien à propos de l'AWS. Si j'ai l'intention de déployer alors que dois-je choisir Amazon EC2 et Amazon EMR?

Je veux améliorer les performances de ma tâche. Lequel est le mieux et fiable pour moi? Comment l'approche vers eux? J'ai entendu dire que nous pouvons également vous inscrire à notre VM paramètre qu'il est sur AWS. Est-il possible?

Veuillez me suggérer dès que possible.

Merci Beaucoup.

N'est-ce pas plus d'un SysAdmin question que d'une programmation à la question...?
Deviner à partir de la "dès que possible" à la fin de votre question, peut-être que vous devriez essayer d'en envoyant un courriel à la question de votre entreprise plate-forme de l'équipe de soutien à la place 😉

OriginalL'auteur Bhavesh Shah | 2012-04-11

24

DME est une collection d'instances EC2 avec Hadoop (et éventuellement de la Ruche et/ou de Porc) installé et configuré sur eux. Si vous utilisez votre cluster pour l'exécution de Hadoop/Ruche/Cochon d'emplois, EMR est le chemin à parcourir. Un système de DME coûts d'instance un peu plus par rapport à une instance EC2. Une vérification rapide sur Amazon prix aujourd'hui révèle qu'un petit instances EC2 coûts à 0,08 $/heure alors qu'une petite DME coûts d'instance de 0,015 $/heure supplémentaire.
À mon avis, il vaut la peine de payer cet argent supplémentaire pour vous épargner les tracas de l'installation et de la configuration de Hadoop (avec Hive et Pig), la création et le maintien et l'AMI et de l'utiliser. En outre, EMR version d'Hadoop et de la Ruche a quelques patchs qui ne sont pas disponibles (au moins, pas encore) sur un serveur Apache Hive. Si vous utilisez EC2, vous serez probablement en utilisant Apache Hadoop et de la Ruche (ou peut-être, la cloudera distributions) et n'ont pas accès à ces patchs (comme la prise en charge native pour les S3 ou des commandes comme ALTER TABLE my_table RECOVER PARTITIONS

Références:
- http://aws.amazon.com/ec2/pricing/
- http://aws.amazon.com/elasticmapreduce/pricing/
DME et EC2 prix aws.amazon.com/emr/pricing

OriginalL'auteur Mark Grover
5

Je voudrais vous suggérer de ne PAS essayer et de déployer votre propre cluster Hadoop, sauf si vous avez 2 ou 3 mois à revendre, et vous avez une hadoop d'experts à portée de main.

Elastic MapReduce vous permettra de commencer très rapidement en offrant un pré-configuré l'environnement hadoop. Voyant que vous n'avez qu'une seule tâche, elle doit être fine.

Thats Fine. Dans mon Cas d'Utilisation que je veux utiliser SQOOP pour importer les données à partir de MS SQL Server. J'ai créé un emploi pour qu'il l'aide de la Ruche JDBC pour le traiter. Mais j'ai énormément de données MSSQL SERVEUR (près de sur en GO). Si je dois courir le travail au quotidien/hebdomadaire de base, alors est-il efficace pour importer à partir de SQL-SERVER quotidien/hebdomadaire. Si je pense à sortir de ce problème et stockées ces données n S3, alors Comment pourrais-je faire un lien entre la SF et S3. (En raison de la Ruche de la table de données sont stockées dans HDFS /user/ruche/entrepôt de répertoire).

OriginalL'auteur Matthew Rathbone
1

En général, historiquement, EMR était assez loin derrière les dernières versions des composants Hadoop, et certains ont été complètement absent. C'est la principale raison de l'utilisation d'une autre distribution. Par exemple, si vous vouliez HBase, il n'était pas dans DME, mais pas qu'il est. Aujourd'hui, la Spark est absent de DME. DME généralement gal.

Cela dit, si vous n'êtes pas en utilisant les dernières et les meilleures fonctionnalités, rendez-vous avec les EMR.

OriginalL'auteur pwy

Vous devez vous connecter pour publier un commentaire.