Données Pandas à RDD

Puis-je convertir des Pandas Dataframe de RDD?

if isinstance(data2, pd.DataFrame):
    print 'is Dataframe'
else:
    print 'is NOT Dataframe'

est Dataframe

Voici le résultat lorsque vous essayez d'utiliser .ca

dataRDD = data2.rdd
print dataRDD

AttributeError                            Traceback (most recent call last)
<ipython-input-56-7a9188b07317> in <module>()
----> 1 dataRDD = data2.rdd
      2 print dataRDD

/usr/lib64/python2.7/site-packages/pandas/core/generic.pyc in __getattr__(self, name)
   2148                 return self[name]
   2149             raise AttributeError("'%s' object has no attribute '%s'" %
-> 2150                                  (type(self).__name__, name))
   2151 
   2152     def __setattr__(self, name, value):

AttributeError: 'DataFrame' object has no attribute 'rdd'

Je voudrais utiliser les Pandas Dataframe et pas sqlContext de construire comme je ne sais pas si toutes les fonctions de Pandas DF sont disponibles dans Spark. Si ce n'est pas possible, est-ce que quelqu'un peut fournir un exemple d'utilisation de Spark DF

source d'informationauteur kraster

14

Puis-je convertir des Pandas Dataframe de RDD?

Bien, oui, vous pouvez le faire. Les Pandas De Trames De Données
```
pdDF = pd.DataFrame([("foo", 1), ("bar", 2)], columns=("k", "v"))
print pdDF

##      k  v
## 0  foo  1
## 1  bar  2
```
peut être converti à susciter des Trames de Données
```
spDF = sqlContext.createDataFrame(pdDF)
spDF.show()

## +---+-+
## |  k|v|
## +---+-+
## |foo|1|
## |bar|2|
## +---+-+
```
et après que vous pouvez facilement accéder à des sous-jacents RDD
```
spDF.rdd.first()

## Row(k=u'foo', v=1)
```
Encore, je pense que vous avez une mauvaise idée ici. Les Pandas bloc de Données est une structure de données. Il est stocké et transformé localement sur le conducteur. Il n'y a pas de données de distribution ou de traitement en parallèle et il n'utilise pas de Rdd (donc pas de rdd attribut). Contrairement à d'Étincelle DataFrame il fournit à accès aléatoire capacités.

Étincelle DataFrame est distribué structures de données à l'aide de Rdd derrière les coulisses. Il peut être consulté à l'aide de crue SQL (sqlContext.sql) ou SQL comme API (df.where(col("foo") == "bar").groupBy(col("bar")).agg(sum(col("foobar")))). Il n'y a pas d'accès aléatoire et il est immuable (pas d'équivalent de Pandas inplace). Chaque transformation renvoie nouveau DataFrame.

Si ce n'est pas possible, est-ce que quelqu'un peut fournir un exemple d'utilisation de Spark DF

Pas vraiment. Il est loin de ce vaste sujet pour. Spark a vraiment une bonne documentation et Databricks fournit quelques ressources supplémentaires. Pour commencer, vous vérifiez ces:
- L'introduction de DataFrames Spark à Grande Échelle de la Science des Données
- Spark SQL et DataFrame Guide

Vous devez vous connecter pour publier un commentaire.