Tag: apache-spark

Apache Spark est un open source de traitement de données distribuées bibliothèque à grande échelle dans-mémoire d’analyse de données informatique.

Apache Spark, ajoutez une colonne calculée "CASE WHEN ... ELSE ..." à un DataFrame existant

Exception de tâche non sérialisable lors de l'exécution du travail d'amorçage apache

Obtenir le fichier de données CSV to Spark

SPARK / SQL: spark ne peut pas résoudre le symbole toDF

Comment définir le nombre d'exécuteurs Spark?

Spark: Lecture de fichiers utilisant un délimiteur différent de la nouvelle ligne

PySpark DataFrames - façon d'énumérer sans convertir en Pandas?

Comment interroger une colonne de données JSON à l'aide de Spark DataFrames?

Comment convertir DataFrame en Json?

Comment vérifier l'état des applications Spark à partir de la ligne de commande?

Comment rendre plus facile le déploiement de mon Jar vers Spark Cluster en mode autonome?

Comment supprimer / disposer une variable de diffusion de tas dans Spark?

Spark DataFrame groupBy et trier dans l'ordre décroissant (pyspark)

AuthorizationException: l'utilisateur n'est pas autorisé à usurper l'identité de l'utilisateur

Comment ajouter une nouvelle colonne Struct à un DataFrame

Calcul de la durée en soustrayant deux colonnes datetime au format chaîne

Comment obtenir une valeur de l'objet Row dans Spark Dataframe?

Hadoop "Impossible de charger la bibliothèque native-hadoop pour votre plate-forme" erreur sur docker-spark?

Spark Submit échoue avec java.lang.NoSuchMethodError: scala.Predef $. $ Conforme () Lscala / Predef $$ less $ colon $ less;

Augmenter la mémoire disponible pour PySpark à l'exécution

Concaténer deux bases de données PySpark

Ajouter une somme de colonnes en tant que nouvelle colonne dans la structure de données PySpark

Différence d'étincelle entre reduceByKey vs groupByKey vs aggregateByKey vs combineByKey

Meilleur moyen de convertir un champ de chaîne en horodatage dans Spark

comment convertir une chaîne JSON en données sur une étincelle

Spark peut accéder à la table Hive de pyspark mais pas à spark-submit

PySpark ajoute une colonne à un DataFrame à partir d'une colonne TimeStampType

Lecture de TSV dans Spark Dataframe avec l'API Scala

Erreur: jarfile sbt / sbt-launch-0.13.5.jar non valide ou corrompu

java.lang.NoClassDefFoundError: org / apache / spark / streaming / twitter / TwitterUtils $ pendant l'exécution de TwitterPopularTags

Spark submit télécharge automatiquement le fichier jar sur le cluster?

Alias ​​de colonne après groupBy dans pyspark

Bonjour le monde en zeppelin a échoué

Spark manque de mémoire lors du regroupement par clé

Erreur lors de l'utilisation du contexte Hive dans spark: object hive n'est pas membre du package org.apache.spark.sql

obtenir une ligne spécifique à partir de la trame de données spark

spark + sbt-assembly: "dédupliquer: différents contenus de fichiers trouvés dans le suivant"

Utilisez collect_list et collect_set dans Spark SQL

Pyspark: passez plusieurs colonnes dans UDF

Enregistrer le contenu de Spark DataFrame en tant que fichier CSV unique

Comment transposer un RDD dans Spark

question Exécution du travail Spark sur le cluster de fils