Apache Spark: carte vs mapPartitions?

Quelle est la différence entre un CA l' map et mapPartitions méthode? Et ne flatMap se comportent comme des map ou comme mapPartitions? Merci.

(edit)
autrement dit, quelle est la différence (soit sémantiquement ou dans les conditions d'exécution) entre

  def map[A, B](rdd: RDD[A], fn: (A => B))
               (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = {
    rdd.mapPartitions({ iter: Iterator[A] => for (i <- iter) yield fn(i) },
      preservesPartitioning = true)
  }

Et:

  def map[A, B](rdd: RDD[A], fn: (A => B))
               (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = {
    rdd.map(fn)
  }

Après la lecture de la réponse ci-dessous, vous pouvez jeter un oeil à cette expérience partagée par quelqu'un qui l'a utilisé.(bzhangusc.wordpress.com/2014/06/19/...) bzhangusc.wordpress.com/2014/06/19/...

InformationsquelleAutor Nicholas White | 2014-01-17

105

Quelle est la différence entre un RDD la carte et mapPartitions méthode?

La méthode carte convertit chaque élément de la source CA dans un seul élément de la suite CA par application d'une fonction. mapPartitions convertit chaque partition de la source de RDD en plusieurs éléments de la suite (éventuellement aucun).

Et ne flatMap se comporter comme une carte ou comme mapPartitions?

Ni, flatMap fonctionne sur un seul élément (comme map) et produit plusieurs éléments de la suite (comme mapPartitions).
- De grâce ne sorte de carte de provoquer des remaniements (ou de modifier le nombre de partitions)? Est-il déplacer des données entre les nœuds? J'ai été en utilisant mapPartitions pour éviter de déplacer des données entre les nœuds, mais n'étais pas sûr si flapMap en serait ainsi.
- Si vous regardez le code source -- github.com/apache/incubator-spark/blob/... et github.com/apache/incubator-spark/blob/... - à la fois map et flatMap ont exactement les mêmes partitions que le parent.
- Comme une note, une présentation donnée par un formateur en 2013, San Francisco Étincelle Sommet (goo.gl/JZXDCR) souligne que les tâches à haute par dossier frais généraux mieux avec un mapPartition qu'avec une carte de transformation. C'est, selon la présentation, en raison du coût élevé de la création d'une nouvelle tâche.
- C'est effectivement le cas, si vous pouvez le faire en effet l'installation d'une seule fois pour la totalité de la partition. L'exemple qu'ils donnent est de la nécessité d'ouvrir une connexion DB par exemple (pas besoin de le faire sur chaque dossier)
- Cela dit, vous ne savez pas si il y a une différence dans l'exécution en parallèle et l'utilisation de la mémoire, entre la carte et mapPartitions. Par exemple, la carte pourrait travailler en parallèle implicitement, mapPartitions vous oblige à effectuer une itération. Donc le calcul pourrait être plus rapide avec la carte, mais si votre exécution sur un seul tuple utilise beaucoup de mémoire temporaire, mapPartitions pourrait éviter des GC et des problèmes de mémoire. Aucune idée si c'est la façon dont il fonctionne réellement, mais mes preuves anecdotiques semble impliquer cette. Aimerais avoir confirmation.
- Je vois le contraire, même avec de très petites opérations, son plus rapide pour appeler mapPartitions et de réitérer que la carte d'appel d'offres. Je suppose que c'est juste les frais généraux de commencer le moteur de langue qui va traiter la carte de la tâche. (Je suis dans R, ce qui peut avoir plus de démarrage de frais généraux.) Si vous souhaitez effectuer plusieurs opérations, puis mapPartitions semble être un peu plus rapide -- je suppose que c'est parce qu'il lit le RDD qu'une seule fois. Même si le CA est mis en cache dans la RAM, qui permet d'économiser beaucoup de frais généraux de la conversion de type.
- map prend essentiellement en fonction de votre f, et passe dans iter.map(f). Donc, fondamentalement, de son une méthode de convenance qui s'enroule mapPartitions. Je serais surpris s'il y avait un avantage de performance de toute façon pour un pur style de plan de transformation d'emploi (c'est à dire où la fonction est identique), si vous avez besoin de créer des objets pour le traitement, si ces objets peuvent être partagés alors mapPartitions serait avantageux.
- À l'aide de mapPartitions semble logique de performance sage, si vous avez une réduction de l'opération, qui peut être divisé en une (1) "réduire par la partition de l'opération" et (2) réduire la partition résultats de l'opération". Le mapPartition peut retourner un objet iterable avec le nombre de partitions éléments, qui peuvent ensuite être réduit au résultat final.
InformationsquelleAutor Alexey Romanov
96

Imp. ASTUCE :

Chaque fois que vous avez des poids lourds de l'initialisation qui devrait être fait une fois
pour de nombreux RDD éléments plutôt qu'une fois par RDD élément, et si ce
d'initialisation, comme la création d'objets à partir d'un tiers
bibliothèque, ne peut pas être sérialisé (de sorte que l'Étincelle peut transmettre à travers
le cluster de nœuds de travail), l'utilisation mapPartitions() au lieu de
map(). mapPartitions() fournit pour l'initialisation à faire
une fois par travailleur tâche/thread/partition au lieu d'une fois par RDD de données
élément pour exemple : voir ci-dessous.
```
val newRd = myRdd.mapPartitions(partition => {
  val connection = new DbConnection /*creates a db connection per partition*/

  val newPartition = partition.map(record => {
    readMatchingFromDB(record, connection)
  }).toList //consumes the iterator, thus calls readMatchingFromDB 

  connection.close() //close dbconnection here
  newPartition.iterator //create a new iterator
})
```
T2. ne flatMap se comporter comme une carte ou comme mapPartitions?

Oui. voir l'exemple 2 de flatmap.. son auto-explicatif.

T1. Quelle est la différence entre un CA de map et mapPartitions

map fonctionne de la fonction utilisée par l'élément de niveau tout en
mapPartitions exerce la fonction au niveau de la partition.

Exemple de Scénario : si nous avons 100 K éléments dans un RDD partition, puis nous mettrons le feu au large de la fonction en cours d'utilisation par la cartographie de la transformation de 100K fois lorsque nous utilisons map.

À l'inverse, si nous utilisons mapPartitions alors nous ne appel à une fonction particulière d'un moment, mais nous allons passer dans tous les 100K dossiers et obtenir toutes les réponses en un seul appel de fonction.

Il y aura gain de performance depuis map travaille sur une fonction en particulier de nombreuses fois, en particulier si la fonction est en train de faire quelque chose de cher à chaque fois qu'il n'aurait pas besoin de le faire si nous avons passé dans tous les éléments à la fois(dans le cas de mappartitions).

carte

Applique une transformation de la fonction sur chaque élément de la RDD et les retours
le résultat en tant que nouvelle RDD.

Liste Des Variantes

def de la carte[U: ClassTag](f: T => U): CA[U]

Exemple :
```
val a = sc.parallelize(List("dog", "salmon", "salmon", "rat", "elephant"), 3)
 val b = a.map(_.length)
 val c = a.zip(b)
 c.collect
 res0: Array[(String, Int)] = Array((dog,3), (salmon,6), (salmon,6), (rat,3), (elephant,8)) 
```
mapPartitions

C'est une institution spécialisée de la carte qui est appelé une seule fois pour chaque partition.
L'ensemble du contenu de chaque partitions est disponible en tant que
flux séquentiel de valeurs via l'argument d'entrée (Iterarator[T]).
La fonction doit retourner encore une autre Itérateur[U]. Le combiné
résultat des itérateurs sont automatiquement converties dans un nouveau CA. Merci
notez que le n-uplets (3,4) et (6,7) sont manquantes à partir de la suite
grâce à la partition que nous avons choisi.

preservesPartitioning indique si la fonction d'entrée préserve l'
programme de partitionnement, qui devrait être false sauf si c'est une paire de RDD et de l'entrée
la fonction ne doit pas modifier les touches.

Liste Des Variantes

def mapPartitions[U: ClassTag](f: Iterator[T] => Iterator[U],
preservesPartitioning: Boolean = false): CA[U]

Exemple 1
```
val a = sc.parallelize(1 to 9, 3)
 def myfunc[T](iter: Iterator[T]) : Iterator[(T, T)] = {
   var res = List[(T, T)]()
   var pre = iter.next
   while (iter.hasNext)
   {
     val cur = iter.next;
     res .::= (pre, cur)
     pre = cur;
   }
   res.iterator
 }
 a.mapPartitions(myfunc).collect
 res0: Array[(Int, Int)] = Array((2,3), (1,2), (5,6), (4,5), (8,9), (7,8)) 
```
Exemple 2
```
val x = sc.parallelize(List(1, 2, 3, 4, 5, 6, 7, 8, 9,10), 3)
 def myfunc(iter: Iterator[Int]) : Iterator[Int] = {
   var res = List[Int]()
   while (iter.hasNext) {
     val cur = iter.next;
     res = res ::: List.fill(scala.util.Random.nextInt(10))(cur)
   }
   res.iterator
 }
 x.mapPartitions(myfunc).collect
 //some of the number are not outputted at all. This is because the random number generated for it is zero.
 res8: Array[Int] = Array(1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 5, 7, 7, 7, 9, 9, 10) 
```
Le programme ci-dessus peut également être écrite à l'aide de flatMap comme suit.

Exemple 2 en utilisant flatmap
```
val x  = sc.parallelize(1 to 10, 3)
 x.flatMap(List.fill(scala.util.Random.nextInt(10))(_)).collect

 res1: Array[Int] = Array(1, 2, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 4, 4, 5, 5, 6, 6, 6, 6, 6, 6, 6, 6, 7, 7, 7, 8, 8, 8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9, 10, 10, 10, 10, 10, 10, 10, 10) 
```
Conclusion :

mapPartitions transformation est plus rapide que map depuis il appelle votre fonction une fois la partition/, pas une seule fois/élément..

Pour en savoir plus : foreach Vs foreachPartitions Quand utiliser Quoi?
- Je sais que vous pouvez utiliser map ou mapPartitions pour obtenir le même résultat (voir les deux exemples dans la question); cette question est au sujet de pourquoi vous auriez du choisir une voie sur l'autre. Les commentaires dans les autres réponses sont vraiment utiles! Aussi, vous n'avez pas mentionné que map et flatMap passer false à preservesPartitioning, et quelles sont les implications de ce sont.
- la fonction exécutée à chaque fois, en rapport à la fonction exécuter une fois pour la partition, c'est le lien qui me manquait. Avoir accès à plus d'un enregistrement de données à la fois avec mapPartition est une chose précieuse. apprécier la réponse
- Est-il un scénario dans lequel map est mieux que mapPartitions? Si mapPartitions est si bon, pourquoi n'est-il pas la valeur par défaut de la carte de mise en œuvre?
- les deux sont pour des exigences différentes, nous devons utiliser à bon escient si vous êtes l'instanciation des ressources comme db connections (comme illustré dans l'exemple ci-dessus) qui sont coûteux alors mappartitions est bonne approche depuis une connexion par partition. aussi saveAsTextFile utilisé en interne mappartitions voir
- De mon point de vue, map() est plus facile à comprendre et à apprendre, et c'est aussi une méthode de nombreuses langues différentes. Il peut être plus facile à utiliser ainsi que mapPartitions() si quelqu'un n'est pas familier avec cette Étincelle de la méthode spécifique au début. Si il n'y a pas de différence de performances alors je préfère utiliser la carte().
- Donc, si les résultats ne sont pas tout à fait correcte, alors l'utilisation de mapPartitions est moins pratique. Qui dit que le nombre d'erreurs est faible et il est hors commerce. Je me demande pourquoi l'architecture n'est pas en standard mapPartitions base.
InformationsquelleAutor Ram Ghadiyaram
15

Carte :
1. Il traite une ligne à la fois , très similaire à la méthode map() de MapReduce.
2. Vous le retour de la transformation après chaque ligne.
MapPartitions
1. Il traite la partition complète d'un seul coup.
2. Vous pouvez retourner à partir de la fonction qu'une seule fois après le traitement de l'ensemble de la partition.
3. Tous les résultats intermédiaires doit être conservé dans la mémoire jusqu'à ce que vous processus de l'ensemble de la partition.
4. Vous offre comme setup() map() et de nettoyage() la fonction de MapReduce
Map Vs mapPartitions
http://bytepadding.com/big-data/spark/spark-map-vs-mappartitions/

Spark Map http://bytepadding.com/big-data/spark/spark-map/

Spark mapPartitions
http://bytepadding.com/big-data/spark/spark-mappartitions/
- sujet 2 - si vous effectuez itérateur-à-itérateur transformations, et de ne pas se matérialiser l'itérateur d'une collection de quelque sorte, vous n'aurez pas à contenir l'intégralité de la partition dans la mémoire, en fait, cette façon de spark sera en mesure de déversement de parties de la partition sur le disque.
- Vous n'avez pas à conserver la totalité de la partition de mémoire, mais le résultat. Vous ne pouvez pas retourner le résultat jusqu'à ce que vous avez traité l'ensemble de la partition
InformationsquelleAutor KrazyGautam

Vous devez vous connecter pour publier un commentaire.

Imp. ASTUCE :

carte

mapPartitions

Conclusion :