Est Spark zipWithIndex sécurité avec en parallèle la mise en œuvre?

Si j'ai un fichier, et j'ai fait un RDD zipWithIndex par ligne,

([row1, id1001, name, address], 0)
([row2, id1001, name, address], 1)
...
([row100000, id1001, name, address], 100000)

Vais-je être capable d'obtenir le même ordre d'index si je recharge le fichier? Puisqu'il s'exécute en parallèle, d'autres lignes peuvent être partitionnées différemment?

OriginalL'auteur sophie | 2015-08-06

apache-spark scala

7

RDDs peuvent être triés, et ainsi de faire un ordre. Cette commande est utilisée pour créer l'index avec .zipWithIndex().

Pour obtenir le même ordre à chaque fois cela dépend de la nature des précédents appels sont en train de faire dans votre programme. Les docs mentionner que .groupBy() peut détruire commande ou de générer différents rangements. Il peut y avoir d'autres appels qui font cela.

Je suppose que tu peux toujours faire appel à .sortBy() avant d'appeler .zipWithIndex() si vous avez besoin de garantir un classement spécifique.

C'est expliqué dans le .zipWithIndex() scala API docs

public RDD<scala.Tuple2<T,Object>> zipWithIndex() Zips ce RDD avec
son indice de l'élément. La commande est d'abord basée sur la partition
l'index, puis l'ordre des éléments dans chaque partition. De sorte que le
premier élément de la première partition est l'indice 0, et le dernier élément de
la dernière partition reçoit le plus grand indice. Ceci est similaire à
Scala zipWithIndex mais il utilise de Long au lieu de Int comme l'indice
type. Cette méthode doit déclencher une étincelle d'emploi lors de ce CA contient
plus d'un partitions.

Noter que certains Rdd, telles que celles retournées par groupBy(), ne pas
garant de l'ordre des éléments dans une partition. L'indice attribué à chaque
l'élément n'est donc pas garanti, et peut même changer si le CA est
réévaluée. Si un fixe de la commande est tenu de garantir le même
l'indice de missions, vous devez trier les RDD avec sortByKey() ou l'enregistrer
pour un fichier.

à l'aide de sortBy sur un EDR recueille le conducteur du programme de droit? J'ai peur que cela pourrait entraîner un OOME. L'ordre de tri que je veux c'est juste l'ordre par défaut des lignes dans le fichier.
le tri est fait dans les travailleurs, et non pas le pilote. Si, après la lecture de l'API docs, vous n'êtes pas certain de ce qui va arriver, alors vous devriez le tester en exécutant quelques fois et spot de vérifier les éléments à certains numéros d'index. Vous pouvez le faire sans le chargement de toutes les données dans le pilote, par l'aide .filtre() avec une fonction anonyme qui donne de vrai lorsque le numéro de ligne correspondant à certains ligne particulière, à l'instar de la ligne 43, et par la suite avec une .(1) pour le porter qu'un morceau de données pour le pilote.

OriginalL'auteur Paul

Vous devez vous connecter pour publier un commentaire.