Comment obtenir des lignes distinctes dans dataframe à l'aide de pyspark?

Je comprends que c'est juste une question très simple et très probablement été répondu quelque part, mais en tant que débutant je ne comprends toujours pas et je suis à la recherche pour vos lumières, merci d'avance:

J'ai un intermédiaire dataframe:

+----------------------------+---+
|host                        |day|
+----------------------------+---+
|in24.inetnebr.com           |1  |
|uplherc.upl.com             |1  |
|uplherc.upl.com             |1  |
|uplherc.upl.com             |1  |
|uplherc.upl.com             |1  |
|ix-esc-ca2-07.ix.netcom.com |1  |
|uplherc.upl.com             |1  |

Ce dont j'ai besoin est de supprimer tous les éléments redondants dans la colonne host, dans un autre mot, j'ai besoin de pour obtenir la valeur finale distinctes résultat comme:

+----------------------------+---+
|host                        |day|
+----------------------------+---+
|in24.inetnebr.com           |1  |
|uplherc.upl.com             |1  |
|ix-esc-ca2-07.ix.netcom.com |1  |
|uplherc.upl.com             |1  |

OriginalL'auteur mdivk | 2016-07-29