valeur toDF n'est pas membre de org.apache.spark.rdd.RDD

Exception :

val people = sc.textFile("resources/people.txt").map(_.split(",")).map(p => Person(p(0), p(1).trim.toInt)).toDF()
value toDF is not a member of org.apache.spark.rdd.RDD[Person]

Ici est TestApp.scala fichier:

package main.scala

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf


case class Record1(k: Int, v: String)


object RDDToDataFramesWithCaseClasses {

    def main(args: Array[String]) {
        val conf = new SparkConf().setAppName("Simple Spark SQL Application With RDD To DF")

        //sc is an existing SparkContext.
        val sc = new SparkContext(conf)

        val sqlContext = new SQLContext(sc)

        //this is used to implicitly convert an RDD to a DataFrame.
        import sqlContext.implicits._

        //Define the schema using a case class.
        //Note: Case classes in Scala 2.10 can support only up to 22 fields. To work around this limit,package main.scala

Et TestApp.scala

import org.apache.spark.SparkContext    
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf


case class Record1(k: Int, v: String)


object RDDToDataFramesWithCaseClasses {
    def main(args: Array[String]) {
        val conf = new SparkConf().setAppName("RDD To DF")

        //sc is an existing SparkContext.
        //you can use custom classes that implement the Product interface.
        case class Person(name: String, age: Int)

        //Create an RDD of Person objects and register it as a table.
        val people = sc.textFile("resources/people.txt").map(_.split(",")).map(p => Person(p(0), p(1).trim.toInt)).toDF() 
        people.registerTempTable("people")

        //SQL statements can be run by using the sql methods provided by sqlContext.
        val teenagers = sqlContext.sql("SELECT name, age FROM people WHERE age >= 13 AND age <= 19")

        //The results of SQL queries are DataFrames and support all the normal RDD operations.
        //The columns of a row in the result can be accessed by field index:
        teenagers.map(t => "Name: " + t(0)).collect().foreach(println)

        //or by field name:
        teenagers.map(t => "Name: " + t.getAs[String]("name")).collect().foreach(println)

        //row.getValuesMap[T] retrieves multiple columns at once into a Map[String, T]

        teenagers.map(_.getValuesMap[Any](List("name", "age"))).collect().foreach(println)

        //Map("name" -> "Justin", "age" -> 19)

    }
}

Et SBT Fichier

name := "SparkScalaRDBMS"
version := "1.0"
scalaVersion := "2.11.7"
libraryDependencies += "org.apache.spark" %% "spark-core" % "1.5.1"
libraryDependencies += "org.apache.spark" %% "spark-sql" % "1.5.1"

source d'informationauteur Ashish Aggarwal

apache-spark-sql sbt

26

maintenant j'ai trouvé la raison, vous devez définir la classe de l'objet et hors de la fonction principale. regardez ici
Ok, j'ai finalement résolu le problème. 2 choses qui doit être fait:
1. Importation implicites: Notez que cela devrait être fait seulement après qu'une instance de org.apache.spark.sql.SQLContext est créé. Il devrait être écrit comme:
  
  val sqlContext= new org.apache.spark.sql.SQLContext(sc)
  
  import sqlContext.implicits._
2. Déplacer un cas de classe en dehors de la méthode: cas de la classe, par l'usage de laquelle vous définissez le schéma de la DataFrame, doivent être définis en dehors de la méthode qui en ont besoin. Vous pouvez en lire plus à ce sujet ici: https://issues.scala-lang.org/browse/SI-6649
1

Spark 2, vous devez importer les implicites de la SparkSession:
```
val spark = SparkSession.builder().appName(appName).getOrCreate()
import spark.implicits._
```
Voir le L'étincelle de la documentation pour plus d'options lors de la création de la SparkSession.

-1

i.  scala> case class Employee(id: Int, name: String, age: Int)
defined class Employee
scala> val sqlContext= new org.apache.spark.sql.SQLContext(sc)
warning: there was one deprecation warning; re-run with -deprecation for details
sqlContext: org.apache.spark.sql.SQLContext = org.apache.spark.sql.SQLContext@1f94e3a

scala> import sqlContext.implicits._
import sqlContext.implicits._
scala> var empl1=   empl.map(_.split(",")).map(e=>Employee(e(0).trim.toInt,e(1),e(2).trim.toInt)).toDF
empl1: org.apache.spark.sql.DataFrame = [id: int, name: string ... 1 more field]
scala> val allrecords = sqlContext.sql("SELECT * FROM employee")
allrecords: org.apache.spark.sql.DataFrame = [id: int, name: string ... 1 more field]

scala> allrecords.show();
+----+--------+---+
|  id|    name|age|
+----+--------+---+
|1201|  satish| 25|
|1202| krishna| 28|
|1203|   amith| 39|
|1204|   javed| 23|
|1205|  prudvi| 23|
+----+--------+---+

Vous devez vous connecter pour publier un commentaire.