Comment obtenir des lignes distinctes dans dataframe à l'aide de pyspark?
Je comprends que c'est juste une question très simple et très probablement été répondu quelque part, mais en tant que débutant je ne comprends toujours pas et je suis à la recherche pour vos lumières, merci d'avance:
J'ai un intermédiaire dataframe:
+----------------------------+---+
|host |day|
+----------------------------+---+
|in24.inetnebr.com |1 |
|uplherc.upl.com |1 |
|uplherc.upl.com |1 |
|uplherc.upl.com |1 |
|uplherc.upl.com |1 |
|ix-esc-ca2-07.ix.netcom.com |1 |
|uplherc.upl.com |1 |
Ce dont j'ai besoin est de supprimer tous les éléments redondants dans la colonne host, dans un autre mot, j'ai besoin de pour obtenir la valeur finale distinctes résultat comme:
+----------------------------+---+
|host |day|
+----------------------------+---+
|in24.inetnebr.com |1 |
|uplherc.upl.com |1 |
|ix-esc-ca2-07.ix.netcom.com |1 |
|uplherc.upl.com |1 |
OriginalL'auteur mdivk | 2016-07-29
Vous devez vous connecter pour publier un commentaire.
Si df est le nom de votre DataFrame, il y a deux façons d'obtenir des lignes uniques:
ou
OriginalL'auteur Milos Milovanovic
La normale distincts pas si facile à utiliser, parce que tu ne peux pas régler la colonne.
Dans ce cas assez pour vous:
mais si vous avez d'autres valeurs dans la colonne de la date, vous avez l'habitude de récupérer les différents éléments de l'hôte:
après distinctes que vous obtiendrez comme suit:
vous devriez donc utiliser ceci:
il va conserver la première valeur de la journée
Si vous familiariser avec le langage SQL il travaille aussi pour vous:
OriginalL'auteur Aron Asztalos