Comment supprimer des valeurs en double d'un RDD [PYSPARK]

J'ai le tableau suivant comme CA:

Key Value
1    y
1    y
1    y
1    n
1    n
2    y
2    n
2    n

Je veux supprimer tous les doublons d' Value.

Sortie doit venir comme ça:

Key Value
1    y
1    n
2    y
2    n

Tout en travaillant dans pyspark, la production devrait venir en tant que liste de paires clé-valeur comme ceci:

[(u'1',u'n'),(u'2',u'n')]

Je ne sais pas comment appliquer for boucle ici. Dans un programme Python, il aurait été très facile.

Je me demande si il y a une fonction dans pyspark pour la même chose.

source d'informationauteur COSTA