Comment fonctionne le partitionnement dans Spark?
J'essaie de comprendre comment partitionnement est fait dans Apache Spark. Pouvez-vous aider les gars s'il vous plaît?
Voici le scénario:
- un maître et deux nœuds avec 1 de base de chaque
- un fichier
count.txt
de 10 MO en taille
Nombre de partitions ne les suivants créer?
rdd = sc.textFile(count.txt)
Est la taille du fichier ont une incidence sur le nombre de partitions?
source d'informationauteur abhishek kurasala
Vous devez vous connecter pour publier un commentaire.
Par défaut une partition est créée pour chaque HDFS partition, qui par défaut est de 64 mo (à partir de la Spark Guide De Programmation).
Il est possible de passer à un autre paramètre
defaultMinPartitions
qui remplace le minimum de nombre de partitions que l'étincelle se créer. Si vous n'avez pas remplacer cette valeur puis étincelle va créer au moins autant de partitions quespark.default.parallelism
.Depuis
spark.default.parallelism
est censé être le nombre de cœurs à travers toutes les machines de votre cluster je crois qu'il y aurait au moins 3 partitions créées dans votre cas.Vous pouvez également
repartition
oucoalesce
un EDR pour modifier le nombre de partitions qui à son tour influe sur le nombre total de parallélisme.