Est gzip format pris en charge dans l'Étincelle?
Pour un Grand projet de Données, je suis à la planification de l'utilisation de spark, qui a quelques fonctionnalités intéressantes comme dans la mémoire des calculs répétés des charges de travail. Il peut s'exécuter sur les fichiers locaux ou sur le dessus de HDFS.
Cependant, dans la documentation officielle, je ne trouve aucune indication quant à la façon de traiter les fichiers gzip. Dans la pratique, il peut être très efficace pour traiter .gz fichiers au lieu de les fichiers décompressés.
Est-il un moyen de mettre en œuvre manuellement la lecture de fichiers au format gzip ou décompression est déjà fait automatiquement lors de la lecture .fichier gz?
Vous devez vous connecter pour publier un commentaire.
De l'Étincelle Scala guide de Programmation du la section "Hadoop ensembles de données":
Soutien pour gzip fichiers d'entrée devrait fonctionner de la même façon que dans Hadoop. Par exemple,
sc.textFile("myFile.gz")
devrait automatiquement décompresser et lire compressée par gzip fichiers (textFile()
est en fait mise en œuvre l'utilisation d'Hadoop estTextInputFormat
, qui prend en charge compressée par gzip fichiers).Comme mentionné par @nick-chammas dans les commentaires:
logs = sc.textFile("logs/*.bz2")
, j'obtiens une erreur sur leslogs.count()
. Des idées pourquoi?.gz
l'extension de fichier pour les fichiers compressés. J'ai eu un fichier compressé qui est bien lu avecsc.textFile()
mais renvoie chaînes d'octets lorsque je plaisante avec l'extension ainsi,somefile.gz.bkp