Utilisez collect_list et collect_set dans Spark SQL

Selon la docsle collect_set et collect_list fonctions devraient être disponibles dans Spark SQL. Cependant, je ne peux pas le faire fonctionner. Je suis en cours d'exécution Étincelle 1.6.0 à l'aide d'un Docker image.

Je suis en train de le faire en Scala:

import org.apache.spark.sql.functions._ 

df.groupBy("column1") 
  .agg(collect_set("column2")) 
  .show()

Et recevez l'erreur suivante lors de l'exécution:

Exception in thread "main" org.apache.spark.sql.AnalysisException: undefined function collect_set;

Aussi essayé à l'aide de pysparkmais il échoue également. Les docs de l'état de ces fonctions sont des alias de la Ruche UDAFs, mais je ne peux pas comprendre pour activer ces fonctions.

Comment résoudre ce problème? Merci!

source d'informationauteur Joost Farla | 2016-02-20

31

Spark 2.0+:

SPARK-10605 introduit natif collect_list et collect_set mise en œuvre. SparkSession avec la Ruche de soutien ou de HiveContext ne sont plus requis.

Spark 2.0-INSTANTANÉ (avant 2016-05-03):

Vous devez activer la Ruche de soutien pour une SparkSession:

En Scala:
```
val spark = SparkSession.builder
  .master("local")
  .appName("testing")
  .enableHiveSupport()  //<- enable Hive support.
  .getOrCreate()
```
En Python:
```
spark = (SparkSession.builder
    .enableHiveSupport()
    .getOrCreate())
```
Spark < 2.0:

Pour être en mesure d'utiliser la Ruche Udf (voir https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF) vous avez l'utilisation de Spark construit avec de la Ruche (ce qui est déjà prévu lorsque vous utilisez pré-construit binaires ce qui semble être le cas ici) et initialiser SparkContext à l'aide de HiveContext.

En Scala:
```
import org.apache.spark.sql.hive.HiveContext
import org.apache.spark.sql.SQLContext

val sqlContext: SQLContext = new HiveContext(sc) 
```
En Python:
```
from pyspark.sql import HiveContext

sqlContext = HiveContext(sc)
```

Vous devez vous connecter pour publier un commentaire.