Comment puis-je faire (Spark1.6) saveAsTextFile pour ajouter le fichier existant?
Dans SparkSQL,j'utilise DF.wirte.mode(SaveMode.Ajouter).json(xxxx),mais cette méthode d'obtenir ces fichiers comme
le nom de fichier est trop complexe et aléatoire,je ne peux pas utiliser l'api pour obtenir.Je tiens donc à utiliser saveAstextfile ,car le nom de fichier n'est pas complexe et régulière, mais je ne sais pas comment faire pour ajouter un fichier dans le même diretory?Apprécier votre temps.
avez-vous fixe elle même, je suis confronté à un même problème @yixiyix
OriginalL'auteur yjxyjx | 2016-05-04
Vous devez vous connecter pour publier un commentaire.
Vous pouvez essayer cette méthode que je trouve quelque part.
Processus de Spark Streaming rdd et de les stocker à un seul fichier HDFS
OriginalL'auteur Matiji66
travaillé sur la Spark 1.5 , je pense que c'est le droit d'utilisation..
OriginalL'auteur Ram Ghadiyaram
Comme étincelle utilise HDFS, c'est la sortie standard qu'il produit. Vous pouvez utiliser le
FileUtil
fusionner les fichiers en un seul retour. C'est une solution efficace car il ne nécessite pas d'étincelle à recueillir l'ensemble des données en mémoire par le partitionnement en 1. C'est la démarche que j'ai suivi.Vous pouvez lire le même fichier à l'aide
mergedPath
emplacement. Espérons que cela aide.Je ne suis pas très clair au sujet de votre question. Si vous vous demandez si vous pouvez fusionner la partie-00000,partie-00001,partie-00002 en partie-00000,, c'est ce que le code ci-dessus ne. Vous avez juste besoin de formuler la mergedPath comme vous le souhaitez. Est-ce que vous cherchez?
Il est le
coalesce
fonction Étincelle pour tout rassembler dans un seul fichier.OriginalL'auteur NehaM