La lecture de parquet fichiers à partir de plusieurs répertoires dans Pyspark

J'ai besoin de lire parquet fichiers à partir de plusieurs chemins qui ne sont pas le parent ou l'enfant répertoires.

par exemple,

dir1 ---
       |
       ------- dir1_1
       |
       ------- dir1_2
dir2 ---
       |
       ------- dir2_1
       |
       ------- dir2_2

sqlContext.read.parquet(dir1) lit parquet des fichiers à partir de dir1_1 et dir1_2

Droit maintenant, je suis en train de lire chaque dir et la fusion dataframes à l'aide de "unionAll".
Est-il un moyen de lire le parquet des fichiers à partir de dir1_2 et dir2_1 sans l'aide de unionAll ou est-il de toute façon élégante à l'aide de unionAll

Grâce

OriginalL'auteur joshsuihn | 2016-05-16