Comment lire gz fichier compressé par pyspark

J'ai de la ligne de données .gz format compressé. - Je le lire dans pyspark
Voici l'extrait de code

rdd = sc.textFile("data/label.gz").map(func)

Mais je ne pouvais pas lire le fichier ci-dessus avec succès. Comment puis-je lire gz fichier compressé. J'ai trouvé une question similaire ici mais ma version actuelle de l'étincelle est différente que la version en question. Je m'attends il devrait y avoir un construit en fonction que dans hadoop.

Double Possible de Pourquoi mon "binaryFiles" vide quand je les collectionne dans pyspark?
C'est pas un doublon, mais vous avez nécessaires extrait de code là 🙂

OriginalL'auteur Shafiq | 2017-03-13

9

Spark document clairement spécifier que vous pouvez lire gz fichier automatiquement:

Tous Étincelle du fichier de la base de méthodes de saisie, y compris le texte, le soutien
en cours d'exécution sur les répertoires, les fichiers compressés et des caractères génériques. Pour
exemple, vous pouvez utiliser le fichier texte("/mon/répertoire"),
fichier texte("/mon/répertoire/.txt"), et le fichier texte("/mon/répertoire/.gz").

Je vous suggère de l'exécution de la commande ci-dessous, et de voir le résultat:
```
rdd = sc.textFile("data/label.gz")

print rdd.take(10)
```
En supposant que l'étincelle trouve le fichier data/label.gz, il permet d'imprimer le 10 lignes du fichier.

Noter que l'emplacement par défaut pour un fichier comme data/label.gz sera dans le hdfs dossier de l'étincelle de l'utilisateur. Est-ce là?

OriginalL'auteur Yaron
0

Vous n'avez pas écris le message d'erreur que tu as, mais c'est probablement ne va pas bien pour vous, parce que les fichiers gzip ne sont pas splittable. Vous devez utiliser un splittable codec de compression, comme bzip2.

Il n'y a pas d'erreur en sortie. c'est à dire vide ca
si vous exécutez sc.textFile("data/label.gz").count() il montre 0?

OriginalL'auteur Tim

Vous devez vous connecter pour publier un commentaire.