Enregistrer la structure de données Spark en tant que table partitionnée dynamique dans Hive

J'ai un exemple d'application de travail à lire à partir de fichiers csv dans un dataframe. Le dataframe peuvent être stockées dans une table de la Ruche en parquet format à l'aide de la méthode
df.saveAsTable(tablename,mode).

Le code ci-dessus fonctionne très bien, mais j'ai tellement de données pour chaque jour que je veux partition dynamique de la ruche table basée sur la creationdate(colonne de la table).

est-il de toute façon à la dynamique de la partition de la dataframe et de les stocker dans la ruche de l'entrepôt. Vouloir s'abstenir de coder en Dur l'instruction insert à l'aide de hivesqlcontext.sql(insert into table partittioin by(date)....).

Question peuvent être considérées comme une extension de :Comment enregistrer DataFrame directement à la Ruche?

toute aide est très appréciée.

source d'informationauteur Chetandalal

15

Je crois qu'il fonctionne quelque chose comme ceci:

df est un dataframe avec l'année, le mois et les autres colonnes
```
df.write.partitionBy('year', 'month').saveAsTable(...)
```
ou
```
df.write.partitionBy('year', 'month').insertInto(...)
```
26

J'ai pu écrire à partitionné tableau de la ruche à l'aide de df.write().mode(SaveMode.Append).partitionBy("colname").saveAsTable("Table")

J'ai eu pour activer les propriétés suivantes pour le faire fonctionner.
```
hiveContext.setConf("la ruche.exec.dynamique.partition", "true") 
hiveContext.setConf("la ruche.exec.dynamique.la partition.mode", "nonstrict") 
```

J'ai également été confrontés à la même chose mais en utilisant des tours suivants, je résolus.

Lorsque nous Faisons un tableau comme partitionné ensuite partitionné colonne de devenir sensible à la casse.

Partitionné colonne doit être présent dans le DataFrame avec le même nom (sensible à la casse). Code:

var dbName="your database name"
var finaltable="your table name"

//First check if table is available or not..
if (sparkSession.sql("show tables in " + dbName).filter("tableName='" +finaltable + "'").collect().length == 0) {
     //If table is not available then it will create for you..
     println("Table Not Present \n  Creating table " + finaltable)
     sparkSession.sql("use Database_Name")
     sparkSession.sql("SET hive.exec.dynamic.partition = true")
     sparkSession.sql("SET hive.exec.dynamic.partition.mode = nonstrict ")
     sparkSession.sql("SET hive.exec.max.dynamic.partitions.pernode = 400")
     sparkSession.sql("create table " + dbName +"." + finaltable + "(EMP_ID        string,EMP_Name          string,EMP_Address               string,EMP_Salary    bigint)  PARTITIONED BY (EMP_DEP STRING)")
     //Table is created now insert the DataFrame in append Mode
     df.write.mode(SaveMode.Append).insertInto(empDB + "." + finaltable)
}

Vous devez vous connecter pour publier un commentaire.