Tag: apache-spark

Apache Spark est un open source de traitement de données distribuées bibliothèque à grande échelle dans-mémoire d’analyse de données informatique.

Appliquer la même fonction à tous les domaines de l'étincelle dataframe ligne

AnalysisException: u"impossible de résoudre le nom des colonnes d'entrée: [ liste] dans sqlContext spark

Quelle est la différence entre memory_only et memory_and_disk la mise en cache de niveau spark?

Comment convertir le Timestamp de la Date format de DataFrame?

java.lang.NoClassDefFoundError: org/apache/kafka/common/message/KafkaLZ4BlockOutputStream

Comment utiliser la Colonne.isin avec la liste?

comment pyspark diffusion des variables

NullPointerException en Scala Étincelle, semble être causé type de collection?

Spark: soustraire deux DataFrames

Concaténer des colonnes dans Apache Spark DataFrame

Ne peut pas trouver l'étincelle soumettre lors de la saisie de l'étincelle-shell

Pyspark la Suppression des valeurs nulles à partir d'une colonne dans dataframe

Comment convertir le DataFrame de RDD en Scala?

Comment obtenir un échantillon avec une taille exacte de l'échantillon dans Spark RDD?

SPARK DataFrame: la Façon la plus efficace de split dataframe pour chaque groupe basé sur la même colonne, les valeurs

PySpark de diffusion variables locales des fonctions

Comment se connecter à l'aide de log4j de système de fichiers local à l'intérieur d'une Étincelle application qui s'exécute sur le FIL?

Montrant les tables de base de données spécifique avec Pyspark et de la Ruche

comment filtrer une valeur nulle à partir de l'étincelle dataframe

(null) l'entrée dans la chaîne de commande exception dans saveAsTextFile() sur Pyspark

Lorsque les accumulateurs sont vraiment fiables?

Ce sont diffusées variables? Quels sont les problèmes qu'ils en résolvent?

IntelliJ Idea 14: impossible de résoudre le symbole de l'étincelle

Spark: Comment traduire count(distinct(valeur)) dans Dataframe de l'API

Joindre deux ordinaire RDDs avec/sans Spark SQL

Comment partition de RDD par clé dans l'Allumage?

Rouler votre propre reduceByKey Spark Dataset

Comment comparer deux dataframe et imprimer les colonnes qui sont différents en scala

Comment traverser valider RandomForest modèle?

La connexion à distance à un Spark master Java / Scala

ERREUR SparkContext: Erreur lors de l'initialisation SparkContext

quand utiliser mapParitions et mapPartitionsWithIndex?

Convertir Python dictionnaire Étincelle DataFrame

Spark application jette javax.servlet.FilterRegistration

java.io.IOException: Pas de système de fichiers pour le système hdfs

Comment interroger les noms de colonne d'une Étincelle Dataset?

Comment puis-je me passer d'un en-tête à partir de fichiers CSV dans Spark?

Comment obtenir de l'élément à l'Index dans l'Étincelle RDD (Java)

Spark RDD - Cartographie avec des arguments supplémentaires

Spark throws ClassNotFoundException lors de l'utilisation de --pots option

Le Pattern matching - spark scala CA

Quelle est la relation entre les travailleurs, les travailleurs des cas, et les exécuteurs?

Comment puis-je ajouter un persistante de la colonne d'id de ligne à Étincelle DataFrame?

L'application de la fonction d'Allumage Dataframe Colonne

Spark: FlatMapValues requête

Apache Spark: carte vs mapPartitions?

Le partitionnement en plusieurs colonnes dans Spark SQL

Spark exécuteur perdu à cause du temps, même après le réglage de temps assez long valeur de 1000 secondes

Impossible de charger la classe principale de fichier JAR

Comment faire pour exécuter un script dans PySpark