Analyser CSV comme DataFrame/DataSet avec Apache Spark et Java

Je suis nouveau à l'étincelle, et je veux utiliser du groupe-par & réduire de trouver la suite à partir d'un fichier CSV (une ligne par employé):

  Department, Designation, costToCompany, State
  Sales, Trainee, 12000, UP
  Sales, Lead, 32000, AP
  Sales, Lead, 32000, LA
  Sales, Lead, 32000, TN
  Sales, Lead, 32000, AP
  Sales, Lead, 32000, TN 
  Sales, Lead, 32000, LA
  Sales, Lead, 32000, LA
  Marketing, Associate, 18000, TN
  Marketing, Associate, 18000, TN
  HR, Manager, 58000, TN

Je voudrais simplifier le propos de CSV avec le groupe par Département, de la Désignation, de l'État avec des colonnes supplémentaires avec somme(costToCompany) et TotalEmployeeCount

Devriez obtenir un résultat comme:

  Dept, Desg, state, empCount, totalCost
  Sales,Lead,AP,2,64000
  Sales,Lead,LA,3,96000  
  Sales,Lead,TN,2,64000

Est-il possible de réaliser cela en utilisant des transformations et des actions. Ou doit-on aller pour CA?

pourriez-vous s'il vous plaît organiser le CSV blocs (d'entrée et de résultats) afin de distinguer clairement entre les en-têtes et chaque ligne unique? Il n'est pas clair pour l'instant, avec une ligne commence ou se termine.
Cochez cette façon de le faire avec Spark 2.x +

OriginalL'auteur mithra | 2014-08-18