Spark: Comment traduire count(distinct(valeur)) dans Dataframe de l'API

Je suis en train de comparer les différentes façons d'agréger mes données.

C'est mes données d'entrée avec 2 éléments de la page,le visiteur):

(PAG1,V1)
(PAG1,V1)
(PAG2,V1)
(PAG2,V2)
(PAG2,V1)
(PAG1,V1)
(PAG1,V2)
(PAG1,V1)
(PAG1,V2)
(PAG1,V1)
(PAG2,V2)
(PAG1,V3)

De travail avec une commande SQL dans Spark SQL avec ce code:

import sqlContext.implicits._
case class Log(page: String, visitor: String)
val logs = data.map(p => Log(p._1,p._2)).toDF()
logs.registerTempTable("logs")
val sqlResult= sqlContext.sql(
                              """select page
                                       ,count(distinct visitor) as visitor
                                   from logs
                               group by page
                              """)
val result = sqlResult.map(x=>(x(0).toString,x(1).toString))
result.foreach(println)

J'obtiens ce résultat:

(PAG1,3) //PAG1 has been visited by 3 different visitors
(PAG2,2) //PAG2 has been visited by 2 different visitors

Maintenant, je voudrais obtenir le même résultat à l'aide Dataframes et thiers API, mais je ne peux pas obtenir le même résultat:

import sqlContext.implicits._
case class Log(page: String, visitor: String)
val logs = data.map(p => Coppia(p._1,p._2)).toDF()
val result = log.select("page","visitor").groupBy("page").count().distinct
result.foreach(println)

En fait, c'est ce que j'obtiens en sortie:

[PAG1,8]  //just the simple page count for every page
[PAG2,4]

C'est probablement quelque chose de stupide, mais je ne peux pas le voir en ce moment.

Merci d'avance!

InformationsquelleAutor Fabio Fantoni | 2015-05-13

48

Ce que vous avez besoin est le DataFrame fonction d'agrégation countDistinct:
```
import sqlContext.implicits._
import org.apache.spark.sql.functions._

case class Log(page: String, visitor: String)

val logs = data.map(p => Coppia(p._1,p._2))
            .toDF()

val result = log.select("page","visitor")
            .groupBy('page)
            .agg('page, countDistinct('visitor))

result.foreach(println)
```
- J'obtiens cette erreur --> non trouvé: valeur countDistinct
- c'est une méthode dans org.apache.spark.sql.functions, de les importer :), éditer fait.
- avec intelliJ je équipements s'ont à écrire l'agg/countDistinct commande comme celle-ci .apa(org.apache.spark.sql.fonctions.countDistinct("visiteur")) parce que même si j'ai importé org.apache.spark.sql.fonctions il me donne toujours la même erreur... de toute façon cela fonctionne, mais je ne reçois que le visiteur de la colonne et pas de page de colonne ([2],[3])... ce qui me manque?
- avez-vous d'ajouter le souligner fonctions? org.apache.spark.sql.functions._
- ops, je n'ai pas de type de bien... maintenant l'importation fonctionne mais j'ai toujours une seule colonne comme résultat: le visiteur un ([2],[3])... et donc je ne peux pas correspondre à la page avec des visiteurs
- oublier d'ajouter "page" dans agg(), voir modifier
- déjà là, veuillez actualiser
- Laissez-nous continuer cette discussion dans le chat.
- essayez: from pyspark.sql.functions import *
InformationsquelleAutor yjshen

Vous pouvez utiliser dataframe de groupBy commande deux fois pour le faire. Ici, df1 est votre entrée.

val df2 = df1.groupBy($"page",$"visitor").agg(count($"visitor").as("count"))

Cette commande produit le résultat suivant:

page  visitor  count
----  ------   ----
PAG2    V2       2
PAG1    V3       1
PAG1    V1       5
PAG1    V2       2
PAG2    V1       2

Puis utilisez le groupBy à nouveau la commande pour obtenir le résultat final.

 df2.groupBy($"page").agg(count($"visitor").as("count"))

Final de sortie:

page   count
----   ----
PAG1    3
PAG2    2

InformationsquelleAutor Abu Shoeb

Vous devez vous connecter pour publier un commentaire.