Création d'une Étincelle DataFrame à partir d'une seule chaîne
Je suis en train de prendre une Chaîne codée en dur et de le transformer en un 1-ligne Spark DataFrame (avec une seule colonne de type StringType
) tels que:
String fizz = "buzz"
Entraînerait avec un DataFrame dont .show()
méthode ressemble à ceci:
+-----+
| fizz|
+-----+
| buzz|
+-----+
Ma meilleure tentative à ce jour a été:
val rawData = List("fizz")
val df = sqlContext.sparkContext.parallelize(Seq(rawData)).toDF()
df.show()
Mais j'obtiens l'erreur suivante compilateur:
java.lang.ClassCastException: org.apache.spark.sql.types.ArrayType cannot be cast to org.apache.spark.sql.types.StructType
at org.apache.spark.sql.SQLContext.createDataFrame(SQLContext.scala:413)
at org.apache.spark.sql.SQLImplicits.rddToDataFrameHolder(SQLImplicits.scala:155)
Des idées quant à l'endroit où je suis devenu fou? Aussi, comment puis-je régler "buzz"
que la ligne de la valeur pour l' fizz
de la colonne?
Mise à jour:
Essayer:
sqlContext.sparkContext.parallelize(rawData).toDF()
- Je obtenir un DF qui ressemble à:
+----+
| _1|
+----+
|buzz|
+----+
Vous devez vous connecter pour publier un commentaire.
Essayer:
Dans la version 2.0, vous pouvez:
Éventuellement fournir une séquence de noms pour
toDF
:"buzz"
chaîne), mais le nom de la colonne est "_1
"...les pensées?