Comment createOrReplaceTempView travail dans l'Étincelle?

Je suis nouveau à l'Étincelle d'Allumage et de SQL.

Comment createOrReplaceTempView travail dans l'Étincelle?

Si on enregistre une RDD des objets comme un tableau étincelle conserver toutes les données dans la mémoire?

Intéressant, si vous essayez de vider une base de données de l'Python contexte, de sorte qu'il est accessible par le SQL contexte?

InformationsquelleAutor Abir Chokraborty | 2017-05-16

38

createOrReplaceTempView crée (ou remplace si ce point de vue nom existe déjà) un paresseusement évalué "vue" que vous pouvez ensuite utiliser comme une table de la ruche Spark SQL. Il ne pas persistent à la mémoire, à moins que vous le cache de l'ensemble de données qui sous-tend la vue.
```
scala> val s = Seq(1,2,3).toDF("num")
s: org.apache.spark.sql.DataFrame = [num: int]

scala> s.createOrReplaceTempView("nums")

scala> spark.table("nums")
res22: org.apache.spark.sql.DataFrame = [num: int]

scala> spark.table("nums").cache
res23: org.apache.spark.sql.Dataset[org.apache.spark.sql.Row] = [num: int]

scala> spark.table("nums").count
res24: Long = 3
```
Les données sont mises en cache pleinement qu'après la .count appel. Voici la preuve qu'il a été mis en cache:

SI: spark createOrReplaceTempView vs createGlobalTempView

Citation (en comparant à la persistance de la table): "Contrairement à la createOrReplaceTempView commande, saveAsTable va se matérialiser le contenu du DataFrame et de créer un pointeur vers les données dans la Ruche metastore." de https://spark.apache.org/docs/latest/sql-programming-guide.html#saving-to-persistent-tables

Remarque : createOrReplaceTempView était autrefois registerTempTable
- Est-ce à view créer une table temporaire? Et, ne l' view aucun nom de Spark comme table de la ruche?
- Oui, c'est pratiquement une table, sauf qu'il y a à être évalué car il n'est pas matérialisé fichiers. Vous pouvez utiliser la vue comme vous le feriez un tableau de la ruche (comme dans le raw d'une requête SQL)
- Contrairement à la traditionnelle table temp, temp vue n'est PAS matérialisé à tout, même à la mémoire. Il est utile pour l'accès aux données en SQL, mais de comprendre que ses déclarations doivent être évaluées à CHAQUE fois c'est accessible
- comment puis-je cache val df = sparkSession.sqlContext.sql("SELECT * from table) df.createOrReplaceTempView("trans_union") Ne peuvent pas trouver comment puis-je le mettre en cache?
- Tout d'abord, utilisez sparkSession.sql et passez sqlContext. Deuxièmement, df.cache() ou le CACHE de TABLE dans SQL
- ne pourrait-il pas être .cache() et .count()?
- en Python oui, les parenthèses sont obligatoires. En Scala, ils sont facultatifs. Ou avez-vous été en se référant à une autre facette de ces appels?
- Ah, en fait j'ai un peu raté le gros néon mot scala 3 caractères loin...
InformationsquelleAutor Garren S
7

CreateOrReplaceTempView va créer une situation temporaire de la table sur la mémoire, il n'est pas presistant en ce moment, mais vous pouvez exécuter des requêtes sql sur le dessus de cela . si vous souhaitez l'enregistrer, vous pouvez soit persistent ou utiliser saveAsTable à enregistrer.

- nous d'abord de lire les données en format csv et ensuite de les convertir à la trame de données et créer un temp de vue

De la lecture des données au format csv
```
val data = spark.read.format("csv").option("header","true").option("inferSchema","true").load("FileStore/tables/pzufk5ib1500654887654/campaign.csv")
```
de l'impression du schéma

de données.printSchema
```
data.createOrReplaceTempView("Data")
```
Maintenant, nous pouvons exécuter des requêtes sql sur le dessus de la table de la vue que nous venons de créer
```
  %sql select Week as Date,Campaign Type,Engagements,Country from Data order     by Date asc
```
InformationsquelleAutor RajenJangam
0

SparkSQl en charge l'écriture de programmes à l'aide de Dataset et Dataframe de l'API, ainsi que la nécessité de soutenir sql.

Afin de soutenir Sql sur DataFrames, d'abord, il nécessite la définition d'un tableau avec les noms de colonnes sont nécessaires, ainsi que si elle crée des tables de la ruche metastore obtiendrez beaucoup inutile tables, car l'Étincelle-Sql natif se trouve sur la ruche. Donc, il va créer une situation temporaire, qui a temporairement disponible dans la ruche pour le moment et utilisé comme n'importe quelle autre table de la ruche, une fois que l'Étincelle Contexte arrêter, elle sera supprimée.

Afin de créer la vue, développeur a besoin d'un utilitaire appelé createOrReplaceTempView

InformationsquelleAutor Sainagaraju Vaduka

Vous devez vous connecter pour publier un commentaire.