Qu'est-ce que l'Étincelle DataFrame la méthode `toPandas` en train de faire?

Je suis un débutant de la Spark-DataFrame de l'API.

J'utilise ce code pour charger csv séparé par des tabulations dans Spark Dataframe

lines = sc.textFile('tail5.csv')
parts = lines.map(lambda l : l.strip().split('\t'))
fnames = *some name list*
schemaData = StructType([StructField(fname, StringType(), True) for fname in fnames])
ddf = sqlContext.createDataFrame(parts,schemaData)

Supposons que je créer DataFrame avec Étincelle de nouveaux fichiers, et de les convertir pandas à l'aide intégrée dans la méthode toPandas(),

T-il stocker les Pandas objet de la mémoire locale?
Ne Pandas faible niveau de calcul est occupé de tous par Étincelle?
T-il exposé tous les pandas dataframe de la fonctionnalité?(Je suppose que oui)
Puis-je convertir toPandas et de le faire juste avec elle, sans pour autant toucher DataFrame de l'API?

InformationsquelleAutor Napitupulu Jon | 2015-03-24

54

À l'aide de l'étincelle à lire dans un fichier CSV pour pandas est tout à fait un rond-point de la méthode pour atteindre l'objectif de la fin de la lecture d'un fichier CSV dans la mémoire.

Il semble que vous pourriez être la mauvaise compréhension du cas d'utilisation des technologies en jeu ici.

Étincelle pour le calcul distribué (bien qu'il peut être utilisé localement). Il est généralement beaucoup trop lourd pour être utilisé simplement pour la lecture dans un fichier CSV.

Dans votre exemple, le sc.textFile méthode tout simplement vous donner une étincelle CA c'est effectivement une liste de lignes de texte. Ce n'est probablement pas ce que vous voulez. Aucune inférence de type sera effectué, donc si vous souhaitez calculer la somme d'une colonne de nombres dans un fichier CSV, vous ne pourrez pas parce qu'ils sont toujours des chaînes d'aussi loin que l'Étincelle est concerné.

Suffit d'utiliser pandas.read_csv et de lire l'ensemble du CSV en mémoire. Les Pandas seront automatiquement déduire le type de chaque colonne. La Spark n'a pas le faire.

Maintenant pour répondre à vos questions:

T-il stocker les Pandas objet de la mémoire locale:

Oui. toPandas() va convertir l'Étincelle DataFrame dans une Pandas DataFrame, qui est bien sûr en mémoire.

Ne Pandas faible niveau de calcul est occupé de tous par Spark

Pas. Les Pandas s'exécute ses propres calculs, il n'y a aucune interaction entre l'étincelle et les pandas, il n'y a certains compatibilité de l'API.

T-il exposé tous les pandas dataframe de la fonctionnalité?

Pas. Par exemple, Series objets ont une interpolate méthode qui n'est pas disponible dans PySpark Column objets. Il ya beaucoup de méthodes et fonctions qui sont dans les pandas de l'API qui ne sont pas dans le PySpark API.

Puis-je convertir toPandas et de le faire juste avec elle, sans pour autant toucher DataFrame API?

Absolument. En fait, vous ne devriez probablement pas le même usage Étincelle à tous dans ce cas. pandas.read_csv sera probablement gérer votre cas d'utilisation, sauf si vous travaillez avec un énorme quantité de données.

Essayer de résoudre votre problème avec des simple, de faible technologie, facile-à-comprendre les bibliothèques, et seulement aller à quelque chose de plus compliqué que vous en avez besoin. Plusieurs fois, vous n'aurez pas besoin d'une technologie plus complexe.
- Merci de répondre à mes questions. En fait je suis peut-être pas assez clair. Je suis un débutant de la spark.Je suis juste tester ici pour charger à partir d'un csv.Je suis nécessaires pour lire les données qui sont trop gros pour tenir dans la mémoire et faire l'analyse des données. L'objectif est donc ici de faire quelques analyses de données dans Hadoop. Alors, quand je charge les données de Hadoop(hive), la conversion aux pandas pour le charger dans la mémoire locale?
- et je ne suis pas en utilisant hadoop sur une seule machine. J'ai peut-être pour charger des données avec la ruche dans hdfs. Si je convertir des pandas, je Peux faire des pandas dans les systèmes distribués?
- Ah. Je vois. Spark DataFrames et les Pandas DataFrames de partager aucune de calcul de l'infrastructure. Spark DataFrames émuler l'API de pandas DataFrames où il fait sens. Si vous cherchez quelque chose qui vous permet de fonctionner dans un pandas comme sur l'écosystème Hadoop qui, en plus, vous permet d'aller dans la mémoire avec une pandas DataFrame, découvrez blaze.
- en dehors de blaze, sparklingpandas vise également à fournir des pandas-à l'instar de l'API sur la Spark DataFrames: github.com/sparklingpandas/sparklingpandas
- Puis-je lire un fichier csv avec les Pandas DataFrame d'abord, puis de le convertir Étincelle DataFrame?
- Oui, vous pouvez passer une pandas DataFrame de HiveContext.createDataFrame.
- Si je ne me trompe pas, l'Étincelle dataframe n'est pas local, ce qui signifie que (selon la taille du fichier) plusieurs nœuds de calcul prendra en charge des pièces du dossier et, par conséquent, tenir une partie seulement du dataframe. La carte et les fonctions de filtrage sont effectués sur qu'une partie des données seulement. Afin de recueillir le dataframe sur une machine locale, vous devez utiliser Recueillir. toPandas semble faire de même. Collecter les données et de les convertir en un Pandas local DataFrame.
- Hey @PhillipCloud, envisagez-vous de modifier votre réponse afin de ne pas inclure la partie du haut qui répond à une autre question que celle de l'OP posé, et aussi de clarifier "en mémoire" pour différencier local (maître) de la mémoire et de la distribution (travailleur) de la mémoire? Merci!
InformationsquelleAutor Phillip Cloud
1

À l'aide d'une étincelle contexte ou la ruche contexte de la méthode (sc.textFile(), hc.sql()) pour lire les données dans la mémoire' retourne une CA, mais CA reste dans la répartition de la mémoire (mémoire sur les nœuds de travail), pas de mémoire sur le nœud maître. Tous les RDD méthodes (rdd.map(), rdd.reduceByKey(), etc) sont conçus pour fonctionner en parallèle sur les nœuds de travail, à quelques exceptions près. Par exemple, si vous exécutez un rdd.collect() méthode, en fin de compte vous copie le contenu de la rdd à partir de tous les nœuds de travail pour le nœud maître de mémoire. Ainsi, vous perdez votre distribués de calcul des prestations (mais on peut toujours exécuter le rdd méthodes).

De la même façon avec les pandas, lorsque vous exécutez toPandas(), vous copier le bloc de données à partir distribués (travailleur) de mémoire pour le local (maître) de la mémoire et de perdre la plupart de vos capacités de calcul distribué. Ainsi, un flux de production possible (que j'utilise souvent) peut être pré-munge vos données dans une taille raisonnable distribué à l'aide de méthodes de calcul et ensuite de les convertir à une Pandas bloc de données pour l'ensemble de fonctionnalités riches. Espérons que cela aide.

InformationsquelleAutor TheProletariat

Vous devez vous connecter pour publier un commentaire.