Spark JSON champ de texte pour CA

J'ai une cassandra table avec un champ de type texte instantané nommé contenant des objets JSON:

[identifier, timestamp, snapshot]

J'ai compris que pour être en mesure de faire des transformations sur le champ avec Spark, j'ai besoin de convertir le champ de RDD à l'autre CA pour faire des transformations sur le schéma JSON.

Est-ce exact? Comment dois-je procéder?

Edit: Pour l'instant j'ai réussi à créer un EDR à partir d'un seul champ de texte:

val conf = new SparkConf().setAppName("signal-aggregation")
val sc = new SparkContext(conf)
val sqlContext = new SQLContext(sc)
val snapshots = sc.cassandraTable[(String, String, String)]("listener", "snapshots")
val first = snapshots.first()
val firstJson = sqlContext.jsonRDD(sc.parallelize(Seq(first._3)))
firstJson.printSchema()

Qui me montre le schéma JSON. Bon!

Comment dois-je procéder pour dire Étincelle que ce schéma devrait être appliquée sur toutes les lignes de la table des Instantanés, pour obtenir un RDD sur cet instantané champ de chaque ligne?

Si je comprends bien, vous avez plusieurs objets JSON à l'intérieur de chaque champ dans la cassandra de la table et vous avez besoin de calculer chaque objet de façon indépendante.
Oui, vous avez raison, mais j'ai lu quelque part que l'Étincelle peut comprendre que le champ de texte sous forme de json et que je pouvais faire des transformations sur certaines valeurs de ces jsons, est-ce correct?

OriginalL'auteur galex | 2015-05-04