Tag: apache-spark

Apache Spark est un open source de traitement de données distribuées bibliothèque à grande échelle dans-mémoire d’analyse de données informatique.

spark soumettre “Service de "Chauffeur" n'a pas pu lier sur le port” erreur

apache-spark word-count

'fils de l'application de la liste' ne pas afficher tous les résultats

apache-spark hadoop yarn

Comment créer un vide DataFrame avec un schéma spécifié?

apache-spark apache-spark-sql dataframe scala

Comment créer un fichier udf dans PySpark qui retourne un tableau de chaînes de caractères?

apache-spark apache-spark-sql pyspark python user-defined-functions

Comment charger un fichier local dans sc.texte, au lieu de HDFS

apache-spark scala

Comment éviter le mélange tout en se joignant DataFrames sur les clés uniques?

apache-spark apache-spark-sql

Scala: Comment puis-je remplacer la valeur dans Dataframes utilisation de scala

apache-spark dataframe scala

Rapport d'Application pour application_ (état: ACCEPTÉ) n'en finit pas d'Étincelles Soumettre (avec Spark 1.2.0 sur le FIL)

amazon-emr amazon-kinesis apache-spark yarn

Spark Contexte fichier Texte: de charger plusieurs fichiers

apache-spark python

quelle est la différence entre les FILS d'ALLUMAGE et le moteur de traitement fondée sur l'application en temps réel?

apache-spark bigdata hadoop yarn

Spark SQL groupement: Ajouter au groupe par le ou les envelopper dans un (premier) si vous n'avez pas de soins de la valeur que vous obtenez.;

apache-spark group-by sql udf

kinit: informations d'identification du Client ont été abrogées lors de l'obtention initiale des informations d'identification

active-directory apache-spark hadoop hortonworks-data-platform kerberos

Limite de Kafka lots de taille lors de l'utilisation de Spark Streaming

apache-kafka apache-spark kafka-consumer-api spark-streaming

Comment obtenir le jour de la semaine dans SparkSQL?

Déposez plusieurs colonnes de Spark dataframe en parcourant les colonnes à partir d'un Scala Liste de noms de Colonnes

apache-spark apache-spark-sql scala

Comment calculer les percentiles dans Apache Spark

Pourquoi spark-coque échoue avec NullPointerException?

apache-spark hadoop scala

Les Pandas dataframe de susciter dataframe “ne Peut pas fusionner erreur de type”

apache-spark apache-spark-sql dataframe pandas pyspark

FetchFailedException ou MetadataFetchFailedException lors du traitement des big data set

apache-spark yarn

Création d'une Étincelle DataFrame à partir d'une seule chaîne

apache-spark scala spark-dataframe

Ce qui est une tâche Spark? Comment l'Étincelle travailleur d'exécuter le fichier jar?

apache-spark distributed-computing

Comment puis-je obtenir à partir de 'pyspark.sql.les types.Ligne " toutes les colonnes/attributs nom?

apache-spark attributes pyspark python row

supprimer une colonne à partir d'un dataframe étincelle

apache-spark apache-spark-sql dataframe

Apache Spark Effets de Pilote de la Mémoire, de l'Exécuteur testamentaire de la Mémoire, Pilote de Surcharge de la Mémoire et de l'Exécuteur testamentaire de Surcharge de Mémoire sur la réussite de la tâche en cours d'exécution

apache-spark hadoop memory memory-management out-of-memory

Écrire CA en tant que fichier texte à l'aide d'Apache Spark

apache-spark apache-spark-sql java

Comment écrire le résultant CA dans un fichier csv dans Spark python

apache-spark csv file-writing pyspark python

Comment puis-je me connecter à une base de données postgreSQL dans Apache Spark utilisation de scala?

apache-spark psql scala

Sélectionnez les colonnes dans Pyspark Dataframe

apache-spark apache-spark-sql pyspark pyspark-sql python

pyspark: grouby et puis obtenir la valeur maximum de chaque groupe

apache-spark pyspark python rdd

Quels sont les différents types de jointure dans Spark?

apache-spark apache-spark-2.0 apache-spark-sql scala spark-dataframe

pyspark joindre plusieurs conditions

apache-spark pyspark

Spark rejoindre jette "fonction" de l'objet n'a pas d'attribut "_get_object_id' erreur. Comment pourrais-je résoudre ce problème?

apache-spark function join python sql

Spark Fonctions de la Fenêtre - rangeBetween dates

apache-spark apache-spark-sql pyspark sql window-functions

La ruche metastore Configuration avec derby

apache-spark derby hadoop hive

Localement lecture S3 fichiers par Étincelle (ou mieux: pyspark)

amazon-s3 apache-spark authentication credentials pyspark

Ne peut pas Lire un fichier à partir de HDFS à l'aide de l'Étincelle

apache-spark cloudera-cdh hadoop

Création de tableau de la ruche à l'aide de parquet fichier de métadonnées

apache-spark hive parquet scala

Failed to bind to: spark-maître, à l'aide d'un cluster à distance avec deux travailleurs

apache-spark binding runtime-error

Le support des archives Zip dans Apache Spark

apache-spark compression zip

Étincelle de Transformation - Pourquoi son paresseux et quel est l'avantage?

apache-spark lazy-evaluation transformation

Comment accéder à une URL de site web à l'aide d'une étincelle contexte

Dans Apache Spark, pourquoi ne RDD.de l'union de ne pas préserver l'outil de partitionnement?

apache-spark hadoop-partitioning partitioning

Comment définir et utiliser un Définis par l'Utilisateur Fonction d'Agrégation dans Spark SQL?

aggregate-functions apache-spark apache-spark-sql scala user-defined-functions

scala.collection.mutable.WrappedArray$ofRef ne peut pas être convertie en Entier

apache-spark apache-spark-sql spark-dataframe

Remplacez la nouvelle ligne (\n) caractère dans le fichier csv - étincelle scala

apache-spark character newline replace scala

Itérer les lignes et les colonnes dans Spark dataframe

apache-spark apache-spark-sql scala spark-dataframe

Comment réparer java.lang.ClassCastException: impossible d'assigner une instance de la scala.collection.immuable.Liste type de champ scala.collection.Seq?

apache-spark java spark-cassandra-connector

Est gzip format pris en charge dans l'Étincelle?

apache-spark gzip java mapreduce scala

comment filtrer une étincelle dataframe par un booléen colonne

apache-spark filter python spark-dataframe

Spark dataframe exploser fonction

apache-spark apache-spark-sql