Spark - scala: shuffle RDD / split RDD en deux hasard au hasard

Comment puis-je prendre un rdd tableau d'étincelle, et de le diviser en deux rdds de façon aléatoire de sorte que chaque rdd comprendra une partie des données (permet de dire que 97% et 3%).

J'ai pensé à l'aléatoire de la liste, puis shuffledList.take((0.97*rddList.count).toInt)

Mais comment puis-je mélanger les rdd?

Ou est-il une meilleure façon de diviser la liste?

Tous les éléments uniques (c'est à dire pas de doublons?) Je me demandais si vous pouvez utiliser takeSample() puis filtrer l'échantillon de la liste d'origine.
Peut être en double, mais pourquoi importe-t-il, que voudriez-vous être en mesure de le faire si ils sont uniques?
OK, je ne pense pas que le takeSample approche serait de travailler avec des doublons.
Il est également difficile parce que je veux enregistrer également la deuxième partie (c'est à dire 3%)

OriginalL'auteur griffon vulture | 2014-07-21

20

J'ai trouvé une manière simple et rapide de diviser le tableau:
```
val Array(f1,f2) = data.randomSplit(Array(0.97, 0.03))
```
Il fractionne les données à l'aide du poids.

OriginalL'auteur griffon vulture

Vous devez utiliser randomSplit méthode:

def randomSplit(weights: Array[Double], seed: Long = Utils.random.nextLong): Array[RDD[T]]

//Randomly splits this RDD with the provided weights.
//weights for splits, will be normalized if they don't sum to 1
//returns split RDDs in an array

Voici sa la mise en œuvre spark 1.0:

def randomSplit(weights: Array[Double], seed: Long = Utils.random.nextLong): Array[RDD[T]] = {
    val sum = weights.sum
    val normalizedCumWeights = weights.map(_ / sum).scanLeft(0.0d)(_ + _)
    normalizedCumWeights.sliding(2).map { x =>
       new PartitionwiseSampledRDD[T, T](this, new BernoulliSampler[T](x(0), x(1)),seed)
    }.toArray
}

Vous pouvez espérer voir que l'autre réponse a été édité à plus tard. Si cette réponse est obsolète, n'hésitez pas à le modifier.

OriginalL'auteur Shyamendra Solanki

Vous devez vous connecter pour publier un commentaire.