AWS DME performance HDFS vs S3

Dans le Big Data, le code est poussé vers les données pour l'exécution. Cela a du sens, puisque les données est énorme et le code d'exécution est relativement faible. Venir à AWS DME, les données peuvent être soit dans HDFS ou dans S3. En cas de S3, les données doivent être extraites de la base/les nœuds de tâches pour l'exécution de certains autres nœuds. Cela peut être un peu de surcharge, lorsque par rapport aux données dans HDFS.

Récemment, j'ai remarqué que quand le MONSIEUR le travail était en cours d'exécution, il a été énorme latence obtenir les fichiers journaux dans S3. Parfois, il a fallu quelques minutes pour les fichiers journaux à apparaître même après que le travail a été achevé.

Des idées sur ce point? Quelqu'un aurait-il des mesures pour l', M. de réalisation de la tâche avec les données dans HDFS vs S3?

OriginalL'auteur Praveen Sripati | 2013-11-22