La création d'un simple 1-ligne Spark DataFrame avec l'API Java

En Scala, je peux créer une seule ligne DataFrame à partir d'une mémoire de la chaîne comme suit:

val stringAsList = List("buzz")
val df = sqlContext.sparkContext.parallelize(jsonValues).toDF("fizz")
df.show()

Quand df.show() s'exécute, il sorties:

+-----+
| fizz|
+-----+
| buzz|
+-----+

Maintenant, je suis en train de le faire à partir de l'intérieur d'une classe Java. Apparemment JavaRDDs n'avez pas de toDF(String) méthode. J'ai essayé:

List<String> stringAsList = new ArrayList<String>();
stringAsList.add("buzz");
SQLContext sqlContext = new SQLContext(sparkContext);
DataFrame df = sqlContext.createDataFrame(sparkContext
    .parallelize(stringAsList), StringType);
df.show();

...mais il semble toujours à venir à court. Maintenant, quand df.show(); exécute, j'obtiens:

++
||
++
||
++

(Vide DF.) Alors je vous le demande: à l'Aide de la API Java, comment puis-je lire un mémoire de chaîne dans un DataFrame qui a seulement 1 ligne et 1 colonne, et de spécifier le nom de cette colonne? (De sorte que le df.show() est identique à la Scala, l'un au-dessus)?

OriginalL'auteur smeeb | 2016-10-10

Vous pouvez atteindre cet objectif par la création d'une Liste de Rdd et de créer Schéma qui va contenir le nom de colonne.

Il pourrait y avoir d'autres façons, c'est juste l'un d'eux.

List<String> stringAsList = new ArrayList<String>();
        stringAsList.add("buzz");

JavaRDD<Row> rowRDD = sparkContext.parallelize(stringAsList).map((String row) -> {
                return RowFactory.create(row);
            });

StructType schema = DataTypes.createStructType(new StructField[] { DataTypes.createStructField("fizz", DataTypes.StringType, false) });

DataFrame df = sqlContext.createDataFrame(rowRDD, schema).toDF();
df.show();

//+----+
|fizz|
+----+
|buzz|

Avez-vous mise à jour de ce code de Spark 2 par hasard?
L'homme désolé je n'ai pas.

OriginalL'auteur cody123

J'ai créé 2 exemples pour Spark 2 si vous avez besoin de mettre à niveau:

Simple Fizz/Buzz (ou ennemi/bar - vieille génération 🙂 ):

    SparkSession spark = SparkSession.builder().appName("Build a DataFrame from Scratch").master("local[*]")
            .getOrCreate();

    List<String> stringAsList = new ArrayList<>();
    stringAsList.add("bar");

    JavaSparkContext sparkContext = new JavaSparkContext(spark.sparkContext());

    JavaRDD<Row> rowRDD = sparkContext.parallelize(stringAsList).map((String row) -> RowFactory.create(row));

    //Creates schema
    StructType schema = DataTypes.createStructType(
            new StructField[] { DataTypes.createStructField("foe", DataTypes.StringType, false) });

    Dataset<Row> df = spark.sqlContext().createDataFrame(rowRDD, schema).toDF();

2x2 données:

    SparkSession spark = SparkSession.builder().appName("Build a DataFrame from Scratch").master("local[*]")
            .getOrCreate();

    List<String[]> stringAsList = new ArrayList<>();
    stringAsList.add(new String[] { "bar1.1", "bar2.1" });
    stringAsList.add(new String[] { "bar1.2", "bar2.2" });

    JavaSparkContext sparkContext = new JavaSparkContext(spark.sparkContext());

    JavaRDD<Row> rowRDD = sparkContext.parallelize(stringAsList).map((String[] row) -> RowFactory.create(row));

    //Creates schema
    StructType schema = DataTypes
            .createStructType(new StructField[] { DataTypes.createStructField("foe1", DataTypes.StringType, false),
                    DataTypes.createStructField("foe2", DataTypes.StringType, false) });

    Dataset<Row> df = spark.sqlContext().createDataFrame(rowRDD, schema).toDF();

Code peut être téléchargé à partir de: https://github.com/jgperrin/net.jgp.labs.spark.

Comment cela peut-il être fait pour mixte type de données ? Disons que si les valeurs de créer trame de données est "bar1.1" (Chaîne de caractères) et 10(Int)
vous changer votre schéma. il devrait faire l'affaire.

OriginalL'auteur jgp

Vous devez vous connecter pour publier un commentaire.