Ce sont diffusées variables? Quels sont les problèmes qu'ils en résolvent?
Je suis Étincelle guide de Programmation qui dit:
Diffusion de variables permettent au programmeur de garder en lecture seule variable mis en cache sur chaque machine plutôt que l'expédition d'une copie de celui-ci avec des tâches.
Vu ce qui précède, quels sont les cas d'utilisation de diffusion variables? Quels sont les problèmes de diffusion variables résoudre?
Lorsque nous créons une diffusion quelconque variable comme ci-dessous, la variable de référence, ici c'est broadcastVar
disponible dans tous les nœuds du cluster?
val broadcastVar = sc.broadcast(Array(1, 2, 3))
Combien de temps ces variables disponibles dans la mémoire des nœuds?
Vous devez vous connecter pour publier un commentaire.
Si vous avez énorme tableau qui est accessible à partir de l'Étincelle par exemple les Fermetures à quelques données de référence, ce tableau sera expédié à chaque étincelle nœud de fermeture. Par exemple, si vous avez 10 nœuds de cluster avec 100 partitions (10 partitions par nœud), ce Tableau sera distribué au moins 100 fois (10 fois pour chaque nœud).
Si vous utilisez de diffusion, il sera distribué une fois par nœud de l'utilisation efficace du protocole p2p.
Et certains RDD
Dans ce cas tableau sera livré avec fermeture à chaque fois
et à la diffusion, vous allez avoir un énorme avantage en termes de performances