Analyser CSV comme DataFrame/DataSet avec Apache Spark et Java

Je suis nouveau à l'étincelle, et je veux utiliser du groupe-par & réduire de trouver la suite à partir d'un fichier CSV (une ligne par employé):

  Department, Designation, costToCompany, State
  Sales, Trainee, 12000, UP
  Sales, Lead, 32000, AP
  Sales, Lead, 32000, LA
  Sales, Lead, 32000, TN
  Sales, Lead, 32000, AP
  Sales, Lead, 32000, TN 
  Sales, Lead, 32000, LA
  Sales, Lead, 32000, LA
  Marketing, Associate, 18000, TN
  Marketing, Associate, 18000, TN
  HR, Manager, 58000, TN

Je voudrais simplifier le propos de CSV avec le groupe par Département, de la Désignation, de l'État avec des colonnes supplémentaires avec somme(costToCompany) et TotalEmployeeCount

Devriez obtenir un résultat comme:

  Dept, Desg, state, empCount, totalCost
  Sales,Lead,AP,2,64000
  Sales,Lead,LA,3,96000  
  Sales,Lead,TN,2,64000

Est-il possible de réaliser cela en utilisant des transformations et des actions. Ou doit-on aller pour CA?

pourriez-vous s'il vous plaît organiser le CSV blocs (d'entrée et de résultats) afin de distinguer clairement entre les en-têtes et chaque ligne unique? Il n'est pas clair pour l'instant, avec une ligne commence ou se termine.
Cochez cette façon de le faire avec Spark 2.x +

OriginalL'auteur mithra | 2014-08-18

Procédure

Créer une Classe (Schéma) pour encapsuler votre structure (il n'est pas nécessaire pour l'approche B, mais ce serait rendre votre code plus facile à lire si vous utilisez Java)

public class Record implements Serializable {
  String department;
  String designation;
  long costToCompany;
  String state;
  //constructor , getters and setters  
}

Chargement CVS (JSON) fichier

JavaSparkContext sc;
JavaRDD<String> data = sc.textFile("path/input.csv");
//JavaSQLContext sqlContext = new JavaSQLContext(sc); //For previous versions 
SQLContext sqlContext = new SQLContext(sc); //In Spark 1.3 the Java API and Scala API have been unified


JavaRDD<Record> rdd_records = sc.textFile(data).map(
  new Function<String, Record>() {
      public Record call(String line) throws Exception {
         //Here you can use JSON
         //Gson gson = new Gson();
         //gson.fromJson(line, Record.class);
         String[] fields = line.split(",");
         Record sd = new Record(fields[0], fields[1], fields[2].trim(), fields[3]);
         return sd;
      }
});

À ce stade, vous avez 2 méthodes:

A. SparkSQL

Enregistrer un tableau (à l'aide de votre Schéma défini Classe)

JavaSchemaRDD table = sqlContext.applySchema(rdd_records, Record.class);
table.registerAsTable("record_table");
table.printSchema();

Requête de la table avec votre Requête souhaitée-groupe-par

JavaSchemaRDD res = sqlContext.sql("
  select department,designation,state,sum(costToCompany),count(*) 
  from record_table 
  group by department,designation,state
");

Ici vous serait également en mesure de faire toute autre demande que vous désirez, à l'aide d'un SQL approche

B. Étincelle

De cartographie à l'aide d'une clé composée: Department,Designation,State

JavaPairRDD<String, Tuple2<Long, Integer>> records_JPRDD = 
rdd_records.mapToPair(new
  PairFunction<Record, String, Tuple2<Long, Integer>>(){
    public Tuple2<String, Tuple2<Long, Integer>> call(Record record){
      Tuple2<String, Tuple2<Long, Integer>> t2 = 
      new Tuple2<String, Tuple2<Long,Integer>>(
        record.Department + record.Designation + record.State,
        new Tuple2<Long, Integer>(record.costToCompany,1)
      );
      return t2;
}

});

reduceByKey à l'aide de la clé composite, résumant costToCompany colonne, et l'accumulation du nombre d'enregistrements par clé

JavaPairRDD<String, Tuple2<Long, Integer>> final_rdd_records = 
 records_JPRDD.reduceByKey(new Function2<Tuple2<Long, Integer>, Tuple2<Long,
 Integer>, Tuple2<Long, Integer>>() {
    public Tuple2<Long, Integer> call(Tuple2<Long, Integer> v1,
    Tuple2<Long, Integer> v2) throws Exception {
        return new Tuple2<Long, Integer>(v1._1 + v2._1, v1._2+ v2._2);
    }
});

Mise à jour, j'ai inclus exemple des codes pour les deux approches à l'aide de l'Étincelle de l'API Java.
Je ne peux pas croire la façon dont détaillé de l'API Java est - il presque hystérique 😀
Le Record classe est dans le post.
J'ai essayé sparkSQL il a réussi, alors j'ai essayé les autres B methord j'obtiens une erreur au final_rdd_records (ligne 149) org.apache.maven.cycle de vie.LifecycleExecutionException: Échec de l'exécution de l'objectif org.apache.maven.plugins:maven-compiler-plugin:2.5.1:la compilation (par défaut-compiler) sur le projet simple-projet: Compilation de l'échec /Volumes/Official/spark-1.0.2-bin-hadoop2/try/simple-project/src/main/java/SimpleApp.java:[149,96] erreur: impossible de trouver le symbole
Aussi de format de Date n'est pas de travailler avec spark

OriginalL'auteur emecas

Fichier CSV peut être analysé avec Allumage intégré CSV reader. Il sera de retour
DataFrame/le jeu de données sur le succès de la lecture du fichier. Sur le dessus de
DataFrame/DataSet, vous appliquez de type SQL facilement des opérations.

Utilisant Spark 2.x(et ci-dessus) avec Java

Créer SparkSession objet aka `spark`

import org.apache.spark.sql.SparkSession;

SparkSession spark = SparkSession
    .builder()
    .appName("Java Spark SQL Example")
    .getOrCreate();

Créer Schéma de Ligne, avec `StructType`

import org.apache.spark.sql.types.StructType;

StructType schema = new StructType()
    .add("department", "string")
    .add("designation", "string")
    .add("ctc", "long")
    .add("state", "string");

Créer dataframe de fichier CSV et de les appliquer schéma

Dataset<Row> df = spark.read()
    .option("mode", "DROPMALFORMED")
    .schema(schema)
    .csv("hdfs://path/input.csv");

option de plus sur la lecture de données à partir de fichier CSV

Maintenant, nous pouvons agrégation de données dans les 2 sens

1. SQL façon

Enregistrer un tableau spark sql metastore pour effectuer l'opération SQL
df.createOrReplaceTempView("employee");
Exécuter des requêtes SQL sur les dataframe
Dataset<Row> sqlResult = spark.sql(
    "SELECT department, designation, state, SUM(ctc), COUNT(department)" 
        + " FROM employee GROUP BY department, designation, state");

sqlResult.show(); //for testing
On peut même exécution de requêtes SQL directement sur le fichier CSV avec la création de la table avec Spark SQL

2. Objet de chaînage ou de Programmation ou Java comme

Faire à l'importation pour les fonctions sql
import static org.apache.spark.sql.functions.count;
import static org.apache.spark.sql.functions.sum;
Utilisation groupBy et agg sur dataframe/dataset à effectuer count et
sum sur les données
Dataset<Row> dfResult = df.groupBy("department", "designation", "state")
    .agg(sum("ctc"), count("department"));
//After Spark 1.6 columns mentioned in group by will be added to result by default

dfResult.show();//for testing

dépendant des bibliothèques

"org.apache.spark" % "spark-core_2.11" % "2.0.0" 
"org.apache.spark" % "spark-sql_2.11" % "2.0.0"

La lecture CSV avec Spark 2.x avec Scala : stackoverflow.com/a/39533431/1592191

OriginalL'auteur mrsrinivas

4

Suivantes pourraient ne pas être tout à fait correcte, mais elle devrait vous donner une idée de comment jongler avec les données. C'est pas joli, doit être remplacé par cas, classes, etc, mais comme un rapide exemple d'utilisation de l'étincelle de l'api, j'espère que c'est suffisant 🙂
```
val rawlines = sc.textfile("hdfs://.../*.csv")
case class Employee(dep: String, des: String, cost: Double, state: String)
val employees = rawlines
  .map(_.split(",") /*or use a proper CSV parser*/
  .map( Employee(row(0), row(1), row(2), row(3) )

# the 1 is the amount of employees (which is obviously 1 per line)
val keyVals = employees.map( em => (em.dep, em.des, em.state), (1 , em.cost))

val results = keyVals.reduceByKey{ a,b =>
    (a._1 + b._1, b._1, b._2) # (a.count + b.count , a.cost + b.cost )
}

#debug output
results.take(100).foreach(println)

results
  .map( keyval => someThingToFormatAsCsvStringOrWhatever )
  .saveAsTextFile("hdfs://.../results")
```
Ou vous pouvez utiliser SparkSQL:
```
val sqlContext = new SQLContext(sparkContext)

# case classes can easily be registered as tables
employees.registerAsTable("employees")

val results = sqlContext.sql("""select dep, des, state, sum(cost), count(*) 
  from employees 
  group by dep,des,state"""
```
merci pour votre réponse rapide, je veux un groupe en fonction des résultats, comme par ex dans mysql select Dept,la désignation,l'état,la somme(costToCompany) de table employeetable groupe par Département,de la Désignation,de l'état, pas seulement pour un département comme la vente
Ensuite, il suffit de sauter l'étape de filtre. J'ai mis à jour le code en conséquence. L'objectif est de convertir les lignes en clé-valeur, où la clé contient l'identifiant que vous souhaitez regrouper, et la valeur contient les valeurs que vous voulez réduire. Dans ce cas, nous avons un groupe de choses par le ministère,de la désignation et de l'état, et nous voulons résumer le nombre d'employés, ainsi que le coût, ce sont les valeurs.
Merci, Merci beaucoup, je vais essayer. Vous avez sauvé ma journée!

OriginalL'auteur jkgeyti
4

De JSON, si votre fichier texte contient un objet JSON par ligne, vous pouvez utiliser sqlContext.jsonFile(path) laisser Spark SQL charger un SchemaRDD (le schéma sera automatiquement déduite). Ensuite, vous pouvez l'enregistrer comme une table et des requêtes SQL. Vous pouvez également charger manuellement le fichier texte comme un RDD[String] contenant un objet JSON par enregistrement et l'utilisation sqlContext.jsonRDD(rdd) à son tour comme un SchemaRDD. jsonRDD est utile lorsque vous avez besoin de pré-traitement de vos données.

OriginalL'auteur yhuai

Vous devez vous connecter pour publier un commentaire.

Procédure

A. SparkSQL

B. Étincelle

Utilisant Spark 2.x(et ci-dessus) avec Java

Créer SparkSession objet aka spark

Créer Schéma de Ligne, avec StructType

Créer dataframe de fichier CSV et de les appliquer schéma

Maintenant, nous pouvons agrégation de données dans les 2 sens

1. SQL façon

2. Objet de chaînage ou de Programmation ou Java comme

dépendant des bibliothèques

Créer SparkSession objet aka `spark`

Créer Schéma de Ligne, avec `StructType`