Est gzip format pris en charge dans l'Étincelle?

Pour un Grand projet de Données, je suis à la planification de l'utilisation de spark, qui a quelques fonctionnalités intéressantes comme dans la mémoire des calculs répétés des charges de travail. Il peut s'exécuter sur les fichiers locaux ou sur le dessus de HDFS.

Cependant, dans la documentation officielle, je ne trouve aucune indication quant à la façon de traiter les fichiers gzip. Dans la pratique, il peut être très efficace pour traiter .gz fichiers au lieu de les fichiers décompressés.

Est-il un moyen de mettre en œuvre manuellement la lecture de fichiers au format gzip ou décompression est déjà fait automatiquement lors de la lecture .fichier gz?

InformationsquelleAutor ptikobj | 2013-04-30

70

De l'Étincelle Scala guide de Programmation du la section "Hadoop ensembles de données":

Étincelle peut créer des distribué des ensembles de données à partir de n'importe quel fichier stocké dans Hadoop distributed file system (HDFS) ou d'autres systèmes de stockage pris en charge par Hadoop (y compris votre système de fichiers local, Amazon S3, Hypertable, HBase, etc). Étincelle prend en charge les fichiers texte, SequenceFiles, et tout autre Hadoop InputFormat.

Soutien pour gzip fichiers d'entrée devrait fonctionner de la même façon que dans Hadoop. Par exemple, sc.textFile("myFile.gz") devrait automatiquement décompresser et lire compressée par gzip fichiers (textFile() est en fait mise en œuvre l'utilisation d'Hadoop est TextInputFormat, qui prend en charge compressée par gzip fichiers).

Comme mentionné par @nick-chammas dans les commentaires:

notez que si vous appelez sc.textFile() sur un fichier au format gzip, Étincelle va donner
vous un EDR avec seulement 1 partition (comme de la 0.9.0). C'est parce que
les fichiers gzip sont pas splittable. Si vous n'avez pas de répartition de la RDD
en quelque sorte, toutes les opérations sur que CA sera limitée à un seul cœur
- Lorsque j'essaie logs = sc.textFile("logs/*.bz2"), j'obtiens une erreur sur les logs.count(). Des idées pourquoi?
- avez-vous pensé à elle à la fin? J'obtiens l'erreur suivante lors du chargement tar.gz fichiers: JsonParseException: caractère Illégal ((CTRL-CHAR, le code 0)): seuls les blancs de l'espace (\r, \n, \t) est autorisé entre les jetons
- à partir de cette page: spark.apache.org/docs/latest/programming-guide.html, il est dit: Tous Étincelle du fichier de la base de méthodes de saisie, y compris le texte, le support en cours d'exécution sur les répertoires, les fichiers compressés et des caractères génériques ainsi. Par exemple, vous pouvez utiliser le fichier texte("/mon/répertoire"), fichier texte("/mon/répertoire/*.txt"), et le fichier texte("/mon/répertoire/*.gz") j'espère que ça aide.
- Je suis en train de traiter quelque chose à partir de Google Takeout, mais c'est un fichier (.mbox) je veux de l'intérieur d'une archive. Comment puis-je indiquer que je veux ce qu'un fichier?
- Il semble que l'étincelle vérifie l' .gz l'extension de fichier pour les fichiers compressés. J'ai eu un fichier compressé qui est bien lu avec sc.textFile() mais renvoie chaînes d'octets lorsque je plaisante avec l'extension ainsi, somefile.gz.bkp
InformationsquelleAutor Josh Rosen

Vous devez vous connecter pour publier un commentaire.