Comment puis-je lire un parquet en PySpark écrit à partir de l'Étincelle?

Je suis l'aide de deux Jupyter cahiers de faire des choses différentes dans une analyse. Dans mon Scala ordinateur portable, j'ai écris quelques-uns de mes données nettoyées à parquet:

partitionedDF.select("noStopWords","lowerText","prediction").write.save("swift2d://xxxx.keystone/commentClusters.parquet")

Je puis aller à mon Python portable pour lire les données:

df = spark.read.load("swift2d://xxxx.keystone/commentClusters.parquet")

et j'obtiens l'erreur suivante:

AnalysisException: u'Unable to infer schema for ParquetFormat at swift2d://RedditTextAnalysis.keystone/commentClusters.parquet. It must be specified manually;'

J'ai regardé l'étincelle de la documentation et je ne pense pas que je devrais être nécessaire de spécifier un schéma. Quelqu'un a courir dans quelque chose comme cela? Devrais-je faire autre chose quand je save/load? Les données de débarquement dans l'Objet de Stockage.

edit:
Je suis chanter spark 2.0 dans la lecture et l'écriture.

edit2:
Cela a été fait dans un projet en Science des Données de l'Expérience.

Voici un résumé pour écrire/lire un DataFrame comme un parquet de fichiers vers/à partir de Swift. C'est à l'aide d'un schéma simple (tous les types "chaîne"). Qu'est-ce que le schéma de votre DataFrame? Spark essaie d'en déduire le schéma, mais "à l'heure actuelle, les types de données numériques et de type chaîne de caractères pris en charge" (voir spark.apache.org/docs/latest/...)
Je crois que vous avez répondu à ma question! La colonne "noStopWords" est un vecteur de mots. Comment puis-je enregistrer/charger une df avec cette colonne?

InformationsquelleAutor Ross Lewis | 2017-03-24

J'ai lu parquet fichier de la manière suivante:

from pyspark.sql import SparkSession
# initialise sparkContext
spark = SparkSession.builder \
    .master('local') \
    .appName('myAppName') \
    .config('spark.executor.memory', '5gb') \
    .config("spark.cores.max", "6") \
    .getOrCreate()

sc = spark.sparkContext

# using SQLContext to read parquet file
from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)

# to read parquet file
df = sqlContext.read.parquet('path-to-file/commentClusters.parquet')

InformationsquelleAutor Jeril

9

Vous pouvez utiliser parquet format de Spark Session de lire parquet fichiers. Comme ceci:
```
df = spark.read.parquet("swift2d://xxxx.keystone/commentClusters.parquet")
```
Bien, il n'y a pas de différence entre parquet et load fonctions. Cela pourrait être le cas que load n'est pas en mesure d'en déduire le schéma de données dans le fichier (par exemple, un type de données qui n'est pas identifiable par load ou spécifiques à parquet).
- Merci pour les commentaires, mais cela a fini avec le même message d'erreur. Je vais continuer à essayer d'autres choses.
- Il y a un tutoriel pour que ici: datascience.ibm.com/blog/...
InformationsquelleAutor himanshuIIITian

Vous devez vous connecter pour publier un commentaire.