Comment fonctionne le partitionnement dans Spark?

J'essaie de comprendre comment partitionnement est fait dans Apache Spark. Pouvez-vous aider les gars s'il vous plaît?

Voici le scénario:

un maître et deux nœuds avec 1 de base de chaque
un fichier count.txt de 10 MO en taille

Nombre de partitions ne les suivants créer?

rdd = sc.textFile(count.txt)

Est la taille du fichier ont une incidence sur le nombre de partitions?

source d'informationauteur abhishek kurasala

apache-spark partitioning

21

Par défaut une partition est créée pour chaque HDFS partition, qui par défaut est de 64 mo (à partir de la Spark Guide De Programmation).

Il est possible de passer à un autre paramètre defaultMinPartitions qui remplace le minimum de nombre de partitions que l'étincelle se créer. Si vous n'avez pas remplacer cette valeur puis étincelle va créer au moins autant de partitions que spark.default.parallelism.

Depuis spark.default.parallelism est censé être le nombre de cœurs à travers toutes les machines de votre cluster je crois qu'il y aurait au moins 3 partitions créées dans votre cas.

Vous pouvez également repartition ou coalesce un EDR pour modifier le nombre de partitions qui à son tour influe sur le nombre total de parallélisme.

Vous devez vous connecter pour publier un commentaire.