Comment lire gz fichier compressé par pyspark
J'ai de la ligne de données .gz format compressé. - Je le lire dans pyspark
Voici l'extrait de code
rdd = sc.textFile("data/label.gz").map(func)
Mais je ne pouvais pas lire le fichier ci-dessus avec succès. Comment puis-je lire gz fichier compressé. J'ai trouvé une question similaire ici mais ma version actuelle de l'étincelle est différente que la version en question. Je m'attends il devrait y avoir un construit en fonction que dans hadoop.
Double Possible de Pourquoi mon "binaryFiles" vide quand je les collectionne dans pyspark?
C'est pas un doublon, mais vous avez nécessaires extrait de code là 🙂
C'est pas un doublon, mais vous avez nécessaires extrait de code là 🙂
OriginalL'auteur Shafiq | 2017-03-13
Vous devez vous connecter pour publier un commentaire.
Spark document clairement spécifier que vous pouvez lire
gz
fichier automatiquement:Je vous suggère de l'exécution de la commande ci-dessous, et de voir le résultat:
En supposant que l'étincelle trouve le fichier
data/label.gz
, il permet d'imprimer le 10 lignes du fichier.Noter que l'emplacement par défaut pour un fichier comme
data/label.gz
sera dans le hdfs dossier de l'étincelle de l'utilisateur. Est-ce là?OriginalL'auteur Yaron
Vous n'avez pas écris le message d'erreur que tu as, mais c'est probablement ne va pas bien pour vous, parce que les fichiers gzip ne sont pas splittable. Vous devez utiliser un splittable codec de compression, comme bzip2.
si vous exécutez
sc.textFile("data/label.gz").count()
il montre 0?OriginalL'auteur Tim