Comment puis-je lire un parquet en PySpark écrit à partir de l'Étincelle?

Je suis l'aide de deux Jupyter cahiers de faire des choses différentes dans une analyse. Dans mon Scala ordinateur portable, j'ai écris quelques-uns de mes données nettoyées à parquet:

partitionedDF.select("noStopWords","lowerText","prediction").write.save("swift2d://xxxx.keystone/commentClusters.parquet")

Je puis aller à mon Python portable pour lire les données:

df = spark.read.load("swift2d://xxxx.keystone/commentClusters.parquet")

et j'obtiens l'erreur suivante:

AnalysisException: u'Unable to infer schema for ParquetFormat at swift2d://RedditTextAnalysis.keystone/commentClusters.parquet. It must be specified manually;'

J'ai regardé l'étincelle de la documentation et je ne pense pas que je devrais être nécessaire de spécifier un schéma. Quelqu'un a courir dans quelque chose comme cela? Devrais-je faire autre chose quand je save/load? Les données de débarquement dans l'Objet de Stockage.

edit:
Je suis chanter spark 2.0 dans la lecture et l'écriture.

edit2:
Cela a été fait dans un projet en Science des Données de l'Expérience.

  • Voici un résumé pour écrire/lire un DataFrame comme un parquet de fichiers vers/à partir de Swift. C'est à l'aide d'un schéma simple (tous les types "chaîne"). Qu'est-ce que le schéma de votre DataFrame? Spark essaie d'en déduire le schéma, mais "à l'heure actuelle, les types de données numériques et de type chaîne de caractères pris en charge" (voir spark.apache.org/docs/latest/...)
  • Je crois que vous avez répondu à ma question! La colonne "noStopWords" est un vecteur de mots. Comment puis-je enregistrer/charger une df avec cette colonne?
InformationsquelleAutor Ross Lewis | 2017-03-24