La conversion de JavaRDD à DataFrame Spark java

Je suis en train de traiter le fichier de Log. j'ai d'abord lu le fichier journal et de diviser ces fichiers en tant que par mon exigence et enregistrées à chaque colonne pour séparer les JavaRDD. Maintenant, j'ai besoin de convertir ces JavaRDD à DataFrames pour les opérations futures. C'est le code que j'ai essayé jusqu'à présent:

         SparkConf conf = new SparkConf().setAppName("AuctionBid").setMaster("local");
         JavaSparkContext sc = new JavaSparkContext(conf);
         JavaRDD<String> diskfile = sc.textFile("/Users/karuturi/Downloads/log.txt");
         JavaRDD<String> urlrdd=diskfile.flatMap(line -> Arrays.asList(line.split("\t")[0]));
         System.out.println(urlrdd.take(1));
         SQLContext sql = new SQLContext(sc);

et c'est de cette façon que je suis en train de convertir JavaRDD en DataFrame:

DataFrame fileDF = sqlContext.createDataFrame(urlRDD, Model.class);

Mais la ligne ci-dessus ne fonctionne pas.Je confus au sujet de Model.class.

quelqu'un peut-il me suggérer.

Grâce.

OriginalL'auteur Satish Karuturi | 2016-12-23

Importations:

import java.io.Serializable;

import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;

Créer une classe POJO pour les URL. Je vous recommande d'écrire pour le Journal de la ligne qui se compose d'url, la date, l'heure, la méthode, la cible, etc.. en tant que membres

public static class Url implements Serializable {
  private String value;

  public String getValue() {
    return value;
  }

  public void setValue(String value) {
    this.value = value;
  }
}

Créer un EDR Url d'objets à partir d'un fichier texte

JavaRDD<Url> urlsRDD = spark.read()
  .textFile("/Users/karuturi/Downloads/log.txt")
  .javaRDD()
  .map(new Function<String, Url>() {
    @Override
    public Url call(String line) throws Exception {
      String[] parts = line.split("\\t");
      Url url = new Url();
      url.setValue(parts[0].replaceAll("[", ""));
      return url;
    }
  });

Créer DataFrame de RDD

Dataset<Row> urlsDF = spark.createDataFrame(urlsRDD, Url.class);

CA à DataFrame - Spark 2.0

CA à DataFrame - Spark 1.6

Le code ci-dessus a été écrit dans Spark 2.0+.
Si je veux convertir un JavaRDD avec un SparseVector - t-il?

OriginalL'auteur mrsrinivas

Juste flatmap vos données conformément à 7 du tableau de la colonne et de l'utilisation d'un extrait de code ci-dessous

String[] columns = new String[7] {"clumn1","column2","column3","column4","column5","column6","column7"};
List<String> tableColumns = Arrays.asList(columns);

StrucType schema = createSchema(tableColumns);

    public StructType createSchema(List<String> tableColumns){

        List<StructField> fields  = new ArrayList<StructField>();
        for(String column : tableColumns){         

                fields.add(DataTypes.createStructField(column, DataTypes.StringType, true));            

        }
        return DataTypes.createStructType(fields);
    }

sqlContext.createDataFrame(urlRDD, schema);

OriginalL'auteur FaigB

4

Vous pouvez faire quelque chose comme (je suis la conversion à la volée à partir de la scala, donc excusez les fautes de frappe):
```
import org.apache.spark.sql.Row
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.sql.types.StructField;
import org.apache.spark.sql.types.StructType;

JavaRDD<Row> rowRDD = urlrdd.map(new Function<String, Row>() {
    @Override
    public Row call(String record) throws Exception {
        return RowFactory.create(record());
    }
}
//now you wish to create the target schema. This is basically a list of
//fields (each field would be a column) which you are adding to a StructType
List<StructField> fields = new ArrayList<>();
StructField field = DataTypes.createStructField("url", DataTypes.StringType, true);
fields.add(field);
StructType schema = DataTypes.createStructType(fields);

//now you can create the dataframe:
DataFrame df= sqlContext.createDataFrame(rowRDD, schema);    
```
Quelques remarques supplémentaires:
- Pourquoi êtes-vous flatmaping lorsque vous prenez le premier élément? Vous pourriez avoir tout simplement fait:
  
  JavaRDD<String> urlrdd=diskfile.flatMap(line -> line.split("\t")[0]);
- Je suppose que dans la vraie vie, vous voulez supprimer le '[' partir de l'url (vous pouvez facilement le faire à la carte).
- Si vous vous déplacez à spark 2.0 ou plus, alors au lieu de sqlContext vous devriez être en utilisant étincelle session (étincelle).
- Vous pouvez créer un dataframe avec toutes les colonnes. Vous pouvez le faire en ajoutant tous les champs dans le schéma (c'est à dire au lieu de faire juste un seul ajouter des champs de tous les ajouter). Au lieu d'utiliser urlrdd, utilisez diskfile et de faire la distinction à l'intérieur de la "public Ligne d'appel" de la création. Ce serait quelque chose comme ceci:
  
  JavaRDD<Row> rowRDD = diskfile.map(new Function<String, Row>() { @override public Row call(String record) throws Exception { String[] recs = record.split("\t") return RowFactory.create(recs[0], recs[1], ...); } });
- Vous pouvez le créer directement: il suffit d'utiliser
  
  sqlContext.read.option("sep","\t").csv.load(filename,schema)
OriginalL'auteur Assaf Mendelson
0

Vous pouvez lire directement le fichier à l'aide de sqlContext directement

Utiliser la méthode de lecture de sqlContext

Pour plus d'info, vous pouvez suivre ce lien

https://spark.apache.org/docs/1.6.0/sql-programming-guide.html#creating-dataframes

Ou vous pouvez importer les
```
import sqlContext.implicits.*;
```
Ensuite utiliser toDF() méthode sur rdd convertir en dataframe.

importation sqlContext.implicites._ commande de ne pas soutenir spark java
Ouais désolé viens de voir cela. La meilleure alternative que vous avez à utiliser sqlContext pour lire le fichier. Parce que la conversion de rdd à dataframe utilise la réflexion et donc à réduire extra calcul utiliser sqlContext pour lire le fichier.

OriginalL'auteur Akash Sethi

Vous devez vous connecter pour publier un commentaire.