Comment ajouter des données à un fichier parquet
J'utilise le code suivant pour créer ParquetWriter et à écrire des notices.
ParquetWriter<GenericRecord> parquetWriter = new ParquetWriter(path, writeSupport, CompressionCodecName.SNAPPY, BLOCK_SIZE, PAGE_SIZE);
final GenericRecord record = new GenericData.Record(avroSchema);
parquetWriter.write(record);
Mais elle ne permet que de créer de nouveaux fichiers(à la specfied chemin d'accès).
Est-il un moyen d'ajouter des données à un parquet de fichier (en chemin)? La mise en cache parquetWriter n'est pas possible dans mon cas.
Vous devez vous connecter pour publier un commentaire.
Il y a une Étincelle de l'API SaveMode appelé ajouter: https://spark.apache.org/docs/1.4.0/api/java/org/apache/spark/sql/SaveMode.html qui, je crois, de résoudre votre problème.
Exemple d'utilisation:
Parquet est une forme de colonne de fichier, Il permet d'optimiser l'écriture de toutes les colonnes. Si tout modifier nécessite de réécrire le fichier.
De Wiki
Une base de données orientée colonne sérialise toutes les valeurs d'une colonne, puis les valeurs de la colonne suivante, et ainsi de suite. Pour notre exemple, le tableau, les données sont stockées de cette manière:
Quelques liens
https://en.wikipedia.org/wiki/Column-oriented_DBMS
https://parquet.apache.org/