La lecture de parquet fichiers à partir de plusieurs répertoires dans Pyspark

J'ai besoin de lire parquet fichiers à partir de plusieurs chemins qui ne sont pas le parent ou l'enfant répertoires.

par exemple,

dir1 ---
       |
       ------- dir1_1
       |
       ------- dir1_2
dir2 ---
       |
       ------- dir2_1
       |
       ------- dir2_2

sqlContext.read.parquet(dir1) lit parquet des fichiers à partir de dir1_1 et dir1_2

Droit maintenant, je suis en train de lire chaque dir et la fusion dataframes à l'aide de "unionAll".
Est-il un moyen de lire le parquet des fichiers à partir de dir1_2 et dir2_1 sans l'aide de unionAll ou est-il de toute façon élégante à l'aide de unionAll

Grâce

OriginalL'auteur joshsuihn | 2016-05-16

parquet pyspark

14

Un peu en retard mais j'ai trouvé cela alors que j'étais à la recherche, il peut aider quelqu'un d'autre...

Vous pouvez également essayer de déballage de la liste d'arguments pour spark.read.parquet()
```
paths=['foo','bar']
df=spark.read.parquet(*paths)
```
Cela est pratique si vous souhaitez passer quelques gouttes dans l'argument path:
```
basePath='s3://bucket/'
paths=['s3://bucket/partition_value1=*/partition_value2=2017-04-*',
       's3://bucket/partition_value1=*/partition_value2=2017-05-*'
      ]
df=spark.read.option("basePath",basePath).parquet(*paths)
```
C'est cool de cause vous n'avez pas besoin de faire la liste de tous les fichiers dans le basePath, et vous avez encore de la partition de l'inférence.

Quand je viens d'utiliser ce code, il est à la recherche des répertoires dans le répertoire /home/, Pouvez-vous s'il vous plaît poster l'ensemble de la syntaxe?
quand j'ai essayé ce code, il me donne une erreur que la charge ne prend que 4 arguments, mais j'ai mes chemins à 24 fichiers.. est-il une option à modifier . J'essaie de ne pas faire de multiples charges et d'une union c'est pourquoi je voudrais l'utiliser pour des charges de plusieurs fichiers pour une df

OriginalL'auteur N00b
6

À la fois la parquetFile méthode de SQLContext et la parquet méthode de DataFrameReader prendre plusieurs chemins. Si l'une de ces œuvres:
```
df = sqlContext.parquetFile('/dir1/dir1_2', '/dir2/dir2_1')
```
ou
```
df = sqlContext.read.parquet('/dir1/dir1_2', '/dir2/dir2_1')
```
Aucun de ces travaux pour moi. Il trouve "suspect chemins" et puis me donne une longue liste de nouveautés de java.

OriginalL'auteur John Conley

Juste de prendre John Conley réponse, et embellir un peu et fournir le code complet (utilisé dans Jupyter PySpark) que j'ai trouvé sa réponse extrêmement utile.

from hdfs import InsecureClient
client = InsecureClient('http://localhost:50070')

import posixpath as psp
fpaths = [
  psp.join("hdfs://localhost:9000" + dpath, fname)
  for dpath, _, fnames in client.walk('/eta/myHdfsPath')
  for fname in fnames
]
# At this point fpaths contains all hdfs files 

parquetFile = sqlContext.read.parquet(*fpaths)


import pandas
pdf = parquetFile.toPandas()
# display the contents nicely formatted.
pdf

OriginalL'auteur VenVig

Vous devez vous connecter pour publier un commentaire.