Comparaison de Fichiers HDFS
Comment puis-je comparer deux fichiers HDFS puisqu'il n'est pas diff
?
Je pensais de l'aide de la Ruche tables et de chargement de données à partir de HDFS et ensuite à l'aide d'adhérer à des déclarations sur les 2 tableaux. Est-il une meilleure approche?
Quelle est la version d'hadoop utilisez-vous? Êtes-vous à l'aide d'un CDH distro?
OriginalL'auteur ftw | 2013-01-23
Vous devez vous connecter pour publier un commentaire.
Il n'y a pas de
diff
de commande fourni avec hadoop, mais vous pouvez réellement utiliser les redirections dans votre shell avec ladiff
commande:Si vous voulez simplement savoir si 2 fichiers sont identiques ou non, sans se soucier de savoir les différences, je voudrais suggérer une autre somme de contrôle basée sur l'approche: vous pourriez obtenir les sommes de contrôle pour les deux fichiers et de les comparer. Je pense que Hadoop n'a pas besoin de générer des sommes de contrôle parce qu'ils sont déjà stockées, donc ça devrait être rapide, mais je me trompe peut-être. Je ne pense pas qu'il y a une option de ligne de commande, mais vous pouvez facilement le faire avec l'API Java et de créer une petite application:
OriginalL'auteur Charles Menguy
Bien, la réponse la plus simple est probablement:
Il suffit d'exécuter sur votre machine locale. Si c'est trop lent, alors oui, vous avez à faire quelque chose avec de la Ruche et MapReduce, mais c'est un peu plus délicat, et ne pas correspondre exactement à la comparaison de l'ordre qui diff ne.
OriginalL'auteur Joe K