Spark: prendre la N par clé

Dire que j'ai un PairRDD en tant que tel (Évidemment beaucoup plus de données dans la vraie vie, assumer des millions d'enregistrements):

val scores = sc.parallelize(Array(
      ("a", 1),  
      ("a", 2), 
      ("a", 3), 
      ("b", 3), 
      ("b", 1), 
      ("a", 4),  
      ("b", 4), 
      ("b", 2)
))

Quel est le moyen le plus efficace pour générer un CA avec les 2 premiers scores par clé?

val top2ByKey = ...
res3: Array[(String, Int)] = Array((a,4), (a,3), (b,4), (b,3))

OriginalL'auteur michael_erasmus | 2015-05-11