L'exportation de porc au format CSV
Je vais avoir beaucoup de difficulté à obtenir des données de porc et dans un fichier CSV que je peux utiliser dans Excel ou SQL (ou R ou SPSS etc etc) sans beaucoup de manipulation ...
J'ai essayé d'utiliser la fonction suivante:
STORE pig_object INTO '/Users/Name/Folder/pig_object.csv'
USING CSVExcelStorage(',','NO_MULTILINE','WINDOWS');
Il crée le dossier avec ce nom avec beaucoup de partie de-m-0000# fichiers. Je peut plus tard se joindre à eux tout en utilisant le chat de la partie* > nom de fichier.csv, mais il n'y a pas d'en-tête qui signifie que je dois le faire manuellement.
J'ai lu que PigStorageSchema est censé créer un autre morceau avec un en-tête, mais il ne semble pas fonctionner du tout, par exemple, j'obtiens le même résultat que si c'est juste stockées, aucun fichier d'en-tête:
MAGASIN pig_object DANS/Utilisateurs/Nom/Dossier/pig_object'
À l'AIDE de org.apache.le cochon.petit cochon.le stockage.PigStorageSchema();
(J'ai essayé dans les deux locaux et mapreduce mode).
Est-il possible d'obtenir les données de Porc dans un simple fichier CSV sans ces multiples étapes?
Toute aide serait grandement appréciée!
OriginalL'auteur Saxivore | 2012-12-04
Vous devez vous connecter pour publier un commentaire.
J'ai peur, il n'y a pas un one-liner qui fait le travail,mais vous pouvez venir avec les suivants (Cochon v0.10.0):
Quand PigStorage prend un '
-schema
' il va créer un ".pig_schema
"et un".pig_header
' dans le répertoire de sortie. Ensuite, vous devez fusionner ".pig_header
' avec 'part-x-xxxxx
' :1. Si le résultat doivent être copiés sur le disque local:
(Depuis
-getmerge
prend une entrée de répertoire que vous avez besoin de se débarrasser de.pig_schema
premier)2. Stocker le résultat sur HDFS:
Pour de plus amples informations, vous pouvez également jeter un oeil à ces postes:
MAGASIN de sortie à un seul CSV?
Comment puis-je concaténer deux fichiers dans hadoop en un à l'aide d'Hadoop FS shell?
Hi mate, à la suite de cette ... l' .pig_header fichier est créé, mais il était caché, et je ne pouvais pas le voir (je suis encore à m'habituer à travailler avec le shell de trucs). Donc, j'ai une solution qui peut être fait dans le script qui est génial. Merci!
Vérifier le schéma de
pig_object.
Si il n'est pas tout, il ne sera pas créé un en-tête et les fichiers de schéma. Vous avez besoin de plus d'aide avec cette question?pourquoi ne pas faire comme "meilleure réponse"?
le PigStore() est la création d'binaire des fichiers de pièce est-il un moyen d'obtenir des fichiers de texte. De sorte que, lorsque nous utilisons getmarge il sera lisible format csv
OriginalL'auteur Lorand Bendig
si vous allez stocker vos données comme
PigStorage
sur HDFS et ensuite de le fusionner à l'aide de-getmerge -nl
:Docs:
vous disposerez d'un seul TSV/fichier CSV avec la structure suivante:
donc on peut simplement supprimer des lignes
[2,3,4]
utilisation de AWK:OriginalL'auteur MaxU