STORE sortie à un seul CSV?
Actuellement, quand je STOCKER dans HDFS, il crée beaucoup de fichiers de pièce.
Est-il possible de stocker un fichier CSV?
source d'informationauteur JasonA | 2012-03-28
Vous devez vous connecter pour publier un commentaire.
Vous pouvez le faire de plusieurs façons:
Pour définir le nombre de réducteurs pour tous les Porcs opeations, vous pouvez utiliser le
default_parallel
bien - mais cela signifie que chaque étape utilise un seul réducteur, la diminution de débit:set default_parallel 1;
Avant d'appeler le MAGASIN, si l'une des opérations de l'exécution (COGROUP, CROIX, DISTINCTES, GROUPE, JOINDRE (à l'intérieur), JOIN (externe), et de l'ORDRE DE), vous pouvez utiliser le
PARALLEL 1
mot pour désigner l'utilisation d'un seul réducteur de remplir la commande:GROUP a BY grp PARALLEL 1;
Voir Livre De Recettes Cochon - Parallèle Caractéristiques pour plus d'informations
Vous pouvez également utiliser Hadoop est getmerge commande pour fusionner toutes ces partiel* les fichiers.
Cela est possible uniquement si vous exécutez votre Cochon scripts du Cochon shell (et pas de Java).
Cela comme un avantage par rapport à la solution proposée: vous pouvez toujours utiliser plusieurs réducteurs à traiter vos données, de sorte que votre tâche peut s'exécuter plus rapidement, surtout si chaque réducteur de sortie peu de données.