Comment éviter de générer de la crc des fichiers et de la RÉUSSITE des fichiers pendant l'enregistrement d'un DataFrame?
J'utilise le code suivant pour enregistrer une étincelle DataFrame de fichier JSON
unzipJSON.write.mode("append").json("/home/eranw/Workspace/JSON/output/unCompressedJson.json")
le résultat de sortie est:
part-r-00000-704b5725-15ea-4705-b347-285a4b0e7fd8
.part-r-00000-704b5725-15ea-4705-b347-285a4b0e7fd8.crc
part-r-00001-704b5725-15ea-4705-b347-285a4b0e7fd8
.part-r-00001-704b5725-15ea-4705-b347-285a4b0e7fd8.crc
_SUCCESS
._SUCCESS.crc
- Comment puis-je générer un seul fichier JSON et non un fichier par ligne?
- Comment puis-je éviter l' *crc des fichiers?
- Comment puis-je éviter le SUCCÈS de fichier?
OriginalL'auteur Eran Witkon | 2015-12-20
Vous devez vous connecter pour publier un commentaire.
Si vous voulez qu'un seul fichier, vous avez besoin de faire un
coalesce
à une seule partition avant d'appeler à écrire, afin de:Personnellement, je trouve ça plutôt gênant que le nombre de fichiers de sortie dépendent du nombre de partitions que vous avez avant d'appeler
write
- en particulier si vous faiteswrite
avec unpartitionBy
- mais autant que je sache, il n'existe actuellement pas d'autre moyen.Je ne sais pas si il existe un moyen de désactiver l' .crc des fichiers - je n'en connais pas - mais vous pouvez la désactiver _SUCCESS fichier en définissant les éléments suivants sur la configuration hadoop de l'Étincelle contexte.
Notez que vous pouvez également désactiver la génération des fichiers de métadonnées avec:
Apparemment, générer les fichiers de métadonnées prend un certain temps (voir ce blog) mais ne sont pas réellement important (selon cette). Personnellement, j'ai toujours les désactiver et j'ai pas eu de problèmes.
CRC
et_SUCCESS
fichiers? Spark (travailleur) les nœuds de l'écriture de données simultanément et ces fichiers servent de somme de contrôle pour la validation. L'écriture dans un fichier unique enlève l'idée de l'informatique distribuée et cette approche peut échouer si votre résultante fichier est trop volumineux.OriginalL'auteur Glennie Helles Sindholt