Comment diviser les fichiers parquet en plusieurs partitions dans Spark?

Donc j'ai juste 1 parquet fichier que je suis en train de lire avec Spark (à l'aide de SQL trucs) et j'aimerais qu'il soit traité avec plus de 100 partitions. J'ai essayé de réglage spark.default.parallelism à 100, nous avons également essayé de changer la compression du parquet à aucun (gzip). Peu importe ce que nous faisons de la première étape de la bougie d'emploi n'a qu'une seule partition (une fois une lecture aléatoire se produit, elle devient repartitionné en 100 et, par la suite, évidemment, les choses sont beaucoup beaucoup plus rapide).

Maintenant selon quelques sources (comme ci-dessous) parquet doit être splittable (même si à l'aide de gzip!), donc, je suis super confus et aimerais quelques conseils.

https://www.safaribooksonline.com/library/view/hadoop-application-architectures/9781491910313/ch01.html

Je suis en utilisant étincelle 1.0.0, et, apparemment, la valeur par défaut pour spark.sql.shuffle.partitions est de 200, donc il ne peut pas l'être. En fait, toutes les valeurs par défaut de parallélisme sont beaucoup plus que 1, donc je ne comprends pas ce qui se passe.

source d'informationauteur samthebest