Comment le nom de fichier lors de l'saveAsTextFile spark?

Lors de l'enregistrement en tant que fichier texte dans spark version 1.5.1-je utiliser: rdd.saveAsTextFile('<drectory>').

Mais si je veux trouver le fichier dans ce répertoire, comment puis-je nom de ce que je veux?

Actuellement, je pense qu'il est nommé part-00000, qui doit être par défaut. Comment puis-je lui donner un nom?

Ceci est la documentation que j'ai trouvé: spark.apache.org/docs/1.1.1/api/python/... Pouvez-vous suggérer une autre source?
Quelle est la version de spark utilisez-vous?
voir mise à jour de question
Vous êtes à la lecture de la documentation obsolète, cependant, le nouveau doc peut être trouvé ici Spark 1.5.2 du saveAsTextFile Note: Il n'y a pas de différence dans ce domaine entre les versions 1.5.1 et 1.5.2.

OriginalL'auteur Hunle | 2015-11-11

Comme je l'ai dit dans mon commentaire ci-dessus, la documentation avec des exemples peuvent être trouvés ici. Et de citer la description de la méthode saveAsTextFile:

Enregistrer ce RDD comme un fichier texte, à l'aide de représentations de chaîne d'éléments.

Dans l'exemple suivant j'ai enregistrer un simple RDD dans un fichier, puis-je le charger et d'imprimer son contenu.

samples = sc.parallelize([
    ("[email protected]", "Alberto", "Bonsanto"),
    ("[email protected]", "Miguel", "Bonsanto"),
    ("[email protected]", "Stranger", "Weirdo"),
    ("[email protected]", "Dakota", "Bonsanto")
])

print samples.collect()

samples.saveAsTextFile("folder/here.txt")
read_rdd = sc.textFile("folder/here.txt")

read_rdd.collect()

La sortie sera

('[email protected]', 'Alberto', 'Bonsanto')
('[email protected]', 'Miguel', 'Bonsanto')
('[email protected]', 'Stranger', 'Weirdo')
('[email protected]', 'Dakota', 'Bonsanto')

[u"('[email protected]', 'Alberto', 'Bonsanto')",
 u"('[email protected]', 'Miguel', 'Bonsanto')",
 u"('[email protected]', 'Stranger', 'Weirdo')",
 u"('[email protected]', 'Dakota', 'Bonsanto')"]

Jetons un coup d'oeil à l'aide d'un Unix terminal.

usr@host:~/folder/here.txt$ cat *
('[email protected]', 'Alberto', 'Bonsanto')
('[email protected]', 'Miguel', 'Bonsanto')
('[email protected]', 'Stranger', 'Weirdo')
('[email protected]', 'Dakota', 'Bonsanto')

OriginalL'auteur Alberto Bonsanto

8

La bonne réponse à cette question est que saveAsTextFile ne vous permet pas de nom du fichier réel.

La raison pour cela est que les données sont partitionnées et dans le chemin donné en paramètre à l'appel à saveAsTextFile(...), il va la traiter comme un répertoire, puis d'écrire un fichier par partition.

Vous pouvez appeler rdd.coalesce(1).saveAsTextFile('/some/path/somewhere') et il va créer /some/path/somewhere/part-0000.txt.

Si vous avez besoin de plus de contrôle que cela, vous aurez besoin de faire une véritable opération de fichier sur votre fin d'après-vous faire un rdd.collect().

Avis, cela va rassembler toutes les données dans un seul exécuteur testamentaire de sorte que vous risquez de rencontrer des problèmes de mémoire. C'est le risque que vous prenez.

OriginalL'auteur nod

Il n'est pas possible de nommer le fichier comme @ndd. Cependant, il est possible de renommer le fichier de droit par la suite. Un exemple d'utilisation de PySpark:

sc._jsc.hadoopConfiguration().set(
    "mapred.output.committer.class",
    "org.apache.hadoop.mapred.FileOutputCommitter")
URI = sc._gateway.jvm.java.net.URI
Path = sc._gateway.jvm.org.apache.hadoop.fs.Path
FileSystem = sc._gateway.jvm.org.apache.hadoop.fs.FileSystem
fs = FileSystem.get(URI("s3://{bucket_name}"), sc._jsc.hadoopConfiguration())
file_path = "s3://{bucket_name}/processed/source={source_name}/year={partition_year}/week={partition_week}/"
# remove data already stored if necessary
fs.delete(Path(file_path))

df.saveAsTextFile(file_path, compressionCodecClass="org.apache.hadoop.io.compress.GzipCodec")

# rename created file
created_file_path = fs.globStatus(Path(file_path + "part*.gz"))[0].getPath()
fs.rename(
    created_file_path,
    Path(file_path + "{desired_name}.jl.gz"))

OriginalL'auteur Juan Riaza

Vous devez vous connecter pour publier un commentaire.