Données Pandas à RDD
Puis-je convertir des Pandas Dataframe de RDD?
if isinstance(data2, pd.DataFrame):
print 'is Dataframe'
else:
print 'is NOT Dataframe'
est Dataframe
Voici le résultat lorsque vous essayez d'utiliser .ca
dataRDD = data2.rdd
print dataRDD
AttributeError Traceback (most recent call last)
<ipython-input-56-7a9188b07317> in <module>()
----> 1 dataRDD = data2.rdd
2 print dataRDD
/usr/lib64/python2.7/site-packages/pandas/core/generic.pyc in __getattr__(self, name)
2148 return self[name]
2149 raise AttributeError("'%s' object has no attribute '%s'" %
-> 2150 (type(self).__name__, name))
2151
2152 def __setattr__(self, name, value):
AttributeError: 'DataFrame' object has no attribute 'rdd'
Je voudrais utiliser les Pandas Dataframe et pas sqlContext de construire comme je ne sais pas si toutes les fonctions de Pandas DF sont disponibles dans Spark. Si ce n'est pas possible, est-ce que quelqu'un peut fournir un exemple d'utilisation de Spark DF
source d'informationauteur kraster
Vous devez vous connecter pour publier un commentaire.
Bien, oui, vous pouvez le faire. Les Pandas De Trames De Données
peut être converti à susciter des Trames de Données
et après que vous pouvez facilement accéder à des sous-jacents RDD
Encore, je pense que vous avez une mauvaise idée ici. Les Pandas bloc de Données est une structure de données. Il est stocké et transformé localement sur le conducteur. Il n'y a pas de données de distribution ou de traitement en parallèle et il n'utilise pas de Rdd (donc pas de
rdd
attribut). Contrairement à d'Étincelle DataFrame il fournit à accès aléatoire capacités.Étincelle DataFrame est distribué structures de données à l'aide de Rdd derrière les coulisses. Il peut être consulté à l'aide de crue SQL (
sqlContext.sql
) ou SQL comme API (df.where(col("foo") == "bar").groupBy(col("bar")).agg(sum(col("foobar")))
). Il n'y a pas d'accès aléatoire et il est immuable (pas d'équivalent de Pandasinplace
). Chaque transformation renvoie nouveau DataFrame.Pas vraiment. Il est loin de ce vaste sujet pour. Spark a vraiment une bonne documentation et Databricks fournit quelques ressources supplémentaires. Pour commencer, vous vérifiez ces: