Qu'est-ce que le fichier de séquence dans hadoop?
Je suis nouvelle Map-reduce et je veux comprendre ce qu'est le fichier de séquence de données d'entrée? J'ai étudié dans le Hadoop livre, mais il était difficile pour moi de comprendre.
Avez-vous essayer de googler?
Oui je l'ai fait. Le point est que les ressources n'étaient pas claires.
Je suppose que ce serait mieux si vous pouvez mettre une question spécifique de votre recherche.
Le point est qu'il existe de nombreuses ressources sur les fichiers de séquence dans l'internet. Mais je me demandais si quelqu'un peut facilement illustrer la structure de fichier de séquence?
Je veux dire ce qui est exactement la clé et de la valeur que nous devrions envisager dans un fichier de séquence. et qu'est-ce que leurs différences, avec un texte clair et comment est un fichier de séquence ressemble?
Oui je l'ai fait. Le point est que les ressources n'étaient pas claires.
Je suppose que ce serait mieux si vous pouvez mettre une question spécifique de votre recherche.
Le point est qu'il existe de nombreuses ressources sur les fichiers de séquence dans l'internet. Mais je me demandais si quelqu'un peut facilement illustrer la structure de fichier de séquence?
Je veux dire ce qui est exactement la clé et de la valeur que nous devrions envisager dans un fichier de séquence. et qu'est-ce que leurs différences, avec un texte clair et comment est un fichier de séquence ressemble?
OriginalL'auteur Soghra Gargari | 2015-12-12
Vous devez vous connecter pour publier un commentaire.
Il faut d'abord comprendre ce que sont les problèmes liés à la SequenceFile essayer de résoudre, et puis comment peut-SequenceFile aider à résoudre les problèmes.
Dans HDFS
Dans MapReduce
Carte tâches habituellement traiter un bloc de saisie à un moment (à l'aide de la valeur par défaut FileInputFormat).
Plus le nombre de fichiers est, plus le numéro de la Carte tâche nécessaire et le temps de travail peut être beaucoup plus lent.
Petit fichier scénarios
Ces deux cas nécessitent des solutions différentes.
Solutions Hadoop
HAR fichiers
SequenceFile
Par exemple, supposons qu'il y a 10 000 100 KO des fichiers, alors on peut écrire un programme pour les mettre dans un seul SequenceFile comme ci-dessous, où vous pouvez utiliser le nom de fichier de la clé et le contenu de la valeur.
SequenceFile Fichier de Mise en page http://img.blog.csdn.net/20151213123516719
Certains avantages:
Pris en charge les Compressions, la structure du fichier dépend du type de compression.
Dossier Compressé: Compresse chaque dossier est ajouté au fichier.
record_compress_seq http://img.blog.csdn.net/20151213182753789
Bloc Compressé
这里写图片描述 http://img.blog.csdn.net/20151213183017236
Le lien est mort. Lien seules réponses sont considéré de mauvaise réponse.
Meilleure réponse JiaMing, Merci
OriginalL'auteur JiaMing Lin