AWS DME performance HDFS vs S3

Dans le Big Data, le code est poussé vers les données pour l'exécution. Cela a du sens, puisque les données est énorme et le code d'exécution est relativement faible. Venir à AWS DME, les données peuvent être soit dans HDFS ou dans S3. En cas de S3, les données doivent être extraites de la base/les nœuds de tâches pour l'exécution de certains autres nœuds. Cela peut être un peu de surcharge, lorsque par rapport aux données dans HDFS.

Récemment, j'ai remarqué que quand le MONSIEUR le travail était en cours d'exécution, il a été énorme latence obtenir les fichiers journaux dans S3. Parfois, il a fallu quelques minutes pour les fichiers journaux à apparaître même après que le travail a été achevé.

Des idées sur ce point? Quelqu'un aurait-il des mesures pour l', M. de réalisation de la tâche avec les données dans HDFS vs S3?

OriginalL'auteur Praveen Sripati | 2013-11-22

6

Que la problématique à un niveau différent.

S3 a seulement la cohérence des résultats. Vous n'avez pas immédiatement voir/peut lire après quelque chose a été écrit par votre code (par exemple, un close() ou flush()) , que le processus d'écriture est retardée. Je pense que cela pourrait être dû à la répartition des ressources gratuites pour les données que vous écrivez. Il n'est donc pas un problème de rendement, mais de la consistance que vous voulez vraiment/besoin.

Que dois-je faire sur les EMR? Je le démarrage d'un cluster Hadoop et mettre le tout dans HDFS ce qui est nécessaire par la poste(s). Les lectures sont beaucoup plus coûteux en temps sur S3 et la cohérence éventuelle rend ist fondamentalement inutile pour la mise en mémoire tampon des éléments entre les emplois.

Cependant S3 est grande lors de la sauvegarde des fichiers de votre HDFS ou de les rendre disponibles pour d'autres instances ou services (par exemple CloudFront).

Ce n'est pas tout à fait vrai. S3 a une cohérence éventuelle dans certaines régions, (à savoir NOUS-Orient). Lecture Après Écriture de cohérence est utilisé partout ailleurs. Pour plus d'informations: aws.amazon.com/s3/faqs/...
Je tiens à souligner que la Marque, les informations de date. À partir de son lien: "Amazon S3 dans toutes les Régions de lecture après écriture de cohérence pour les options de vente de nouveaux objets et de la cohérence des résultats pour remplacer le MET et le SUPPRIME."

OriginalL'auteur Thomas Jungblut
2

En termes de performances HDFS est mieux que le S3

HDFS est mieux si votre exigence est de longue durée, de haute performance et vous souhaitez exécuter itératif d'algorithmes d'apprentissage automatique

S3 est mieux si votre charge est variable, nécessite une grande durabilité et la persistance avec moins de coût.

Pour plus d'informations, visitez ce lien http://www.nithinkanil.com/2015/05/hdfs-vs-s3.html

OriginalL'auteur Nithin K Anil
2

Vous devez utiliser S3 si vous souhaitez résilier le cluster EMR, car une fois que vous terminez le cluster HDFS les données seront supprimées.

OriginalL'auteur Anwar

Vous devez vous connecter pour publier un commentaire.