Suppression des doublons de lignes en fonction des colonnes spécifiques dans un EDR/Spark DataFrame

Disons que j'ai une assez grande base de données dans le formulaire ci-dessous:

data = sc.parallelize([('Foo',41,'US',3),
                       ('Foo',39,'UK',1),
                       ('Bar',57,'CA',2),
                       ('Bar',72,'CA',2),
                       ('Baz',22,'US',6),
                       ('Baz',36,'US',6)])

Ce que je voudrais faire est de supprimer les lignes en double sur la base des valeurs de la première,la troisième et la quatrième colonnes seulement.

De supprimer totalement les lignes en double est simple:

data = data.distinct()

et ligne 5 ou ligne 6 sera supprimé

Mais comment puis-je seulement supprimer les doublons de lignes basés sur des colonnes 1, 3 et 4 seulement? c'est à dire supprimer soit un, un de ces:

('Baz',22,'US',6)
('Baz',36,'US',6)

En Python, ce qui pourrait être fait en spécifiant les colonnes avec .drop_duplicates(). Comment puis-je obtenir le même dans Spark/Pyspark?

InformationsquelleAutor Jason | 2015-05-14

52

Pyspark ne comprennent un dropDuplicates() méthode. https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrame.dropDuplicates
```
>>> from pyspark.sql import Row
>>> df = sc.parallelize([ \
...     Row(name='Alice', age=5, height=80), \
...     Row(name='Alice', age=5, height=80), \
...     Row(name='Alice', age=10, height=80)]).toDF()
>>> df.dropDuplicates().show()
+---+------+-----+
|age|height| name|
+---+------+-----+
|  5|    80|Alice|
| 10|    80|Alice|
+---+------+-----+

>>> df.dropDuplicates(['name', 'height']).show()
+---+------+-----+
|age|height| name|
+---+------+-----+
|  5|    80|Alice|
+---+------+-----+
```
Peut-être qu'il a été présenté dans une version ultérieure de ce que @Jason (OP) a l'aide d'?

edit: ouais, il a été introduit dans la version 1.4,
- Est-il un moyen de capturer les enregistrements qu'il a fait tomber?
- x = usersDf.drop_duplicates(sous-ensemble=['DETUserId']) - X dataframe sera d'autant diminué enregistrements
InformationsquelleAutor vaer-k
23

De votre question, il est difficile-pour les colonnes que vous souhaitez utiliser pour déterminer les doublons. L'idée générale derrière la solution est de créer une clé basée sur les valeurs des colonnes qui permettent d'identifier les doublons. Ensuite, vous pouvez utiliser le reduceByKey ou de réduire les opérations d'éliminer les doublons.

Voici un peu de code pour vous aider à démarrer:
```
def get_key(x):
    return "{0}{1}{2}".format(x[0],x[2],x[3])

m = data.map(lambda x: (get_key(x),x))
```
Maintenant, vous avez une clé-valeur RDD qui sont saisies par les colonnes 1, 3 et 4.
La prochaine étape serait un reduceByKey ou groupByKey et filter.
Cela permettrait d'éliminer les doublons.
```
r = m.reduceByKey(lambda x,y: (x))
```
InformationsquelleAutor Mike
11

Je sais que vous avez déjà accepté l'autre réponse, mais si vous voulez faire cela comme un
DataFrame, il suffit d'utiliser groupBy et agg. En supposant que vous avez eu une DF déjà créé (avec des colonnes nommées "col1", "col2", etc), vous pouvez faire:
```
myDF.groupBy($"col1", $"col3", $"col4").agg($"col1", max($"col2"), $"col3", $"col4")
```
Noter que dans ce cas, j'ai choisi le Max de col2, mais vous pourriez le faire avg, min, etc.
- Jusqu'à présent, mon expérience avec DataFrames c'est qu'ils font tout plus élégant et beaucoup plus vite.
- Il convient de noter que cette réponse est écrit en Scala - pour pyspark remplacer $"col1" avec col("col1") etc.
InformationsquelleAutor David Griffin
11

D'accord avec David. Pour ajouter, il peut pas être le cas que nous voulons groupBy toutes les colonnes autres que la colonne(s) en fonction d'agrégation j'.e, si nous voulons supprimer les doublons purement basée sur un sous-ensemble de colonnes et de conserver toutes les colonnes dans l'original dataframe. Donc, la meilleure façon de le faire pourrait être à l'aide de dropDuplicates Dataframe api disponible dans Spark 1.4.0

Pour référence, voir: https://spark.apache.org/docs/1.4.0/api/scala/index.html#org.apache.spark.sql.DataFrame
- Avons-nous la fonction correspondante dans SparkR?
InformationsquelleAutor technotring

J'ai utilisé intégré la fonction dropDuplicates(). Scala code donné ci-dessous

val data = sc.parallelize(List(("Foo",41,"US",3),
("Foo",39,"UK",1),
("Bar",57,"CA",2),
("Bar",72,"CA",2),
("Baz",22,"US",6),
("Baz",36,"US",6))).toDF("x","y","z","count")

data.dropDuplicates(Array("x","count")).show()

De sortie :

+---+---+---+-----+
|  x|  y|  z|count|
+---+---+---+-----+
|Baz| 22| US|    6|
|Foo| 39| UK|    1|
|Foo| 41| US|    3|
|Bar| 57| CA|    2|
+---+---+---+-----+

La question en fait la demande, pyspark mise en œuvre, pas de scala

InformationsquelleAutor Aravind Krishnakumar

Le programme ci-dessous vous aidera à déposer en double dans son ensemble , ou si vous voulez supprimer les doublons en fonction de certaines colonnes , vous pouvez même le faire:

import org.apache.spark.sql.SparkSession

object DropDuplicates {
def main(args: Array[String]) {
val spark =
  SparkSession.builder()
    .appName("DataFrame-DropDuplicates")
    .master("local[4]")
    .getOrCreate()

import spark.implicits._

//create an RDD of tuples with some data
val custs = Seq(
  (1, "Widget Co", 120000.00, 0.00, "AZ"),
  (2, "Acme Widgets", 410500.00, 500.00, "CA"),
  (3, "Widgetry", 410500.00, 200.00, "CA"),
  (4, "Widgets R Us", 410500.00, 0.0, "CA"),
  (3, "Widgetry", 410500.00, 200.00, "CA"),
  (5, "Ye Olde Widgete", 500.00, 0.0, "MA"),
  (6, "Widget Co", 12000.00, 10.00, "AZ")
)
val customerRows = spark.sparkContext.parallelize(custs, 4)

//convert RDD of tuples to DataFrame by supplying column names
val customerDF = customerRows.toDF("id", "name", "sales", "discount", "state")

println("*** Here's the whole DataFrame with duplicates")

customerDF.printSchema()

customerDF.show()

//drop fully identical rows
val withoutDuplicates = customerDF.dropDuplicates()

println("*** Now without duplicates")

withoutDuplicates.show()

//drop fully identical rows
val withoutPartials = customerDF.dropDuplicates(Seq("name", "state"))

println("*** Now without partial duplicates too")

withoutPartials.show()

 }
 }

InformationsquelleAutor Sampat Kumar

-2

C'est mon Df contient 4 est répété deux fois donc, ici, va supprimer des valeurs répétées.
```
scala> df.show
+-----+
|value|
+-----+
|    1|
|    4|
|    3|
|    5|
|    4|
|   18|
+-----+

scala> val newdf=df.dropDuplicates

scala> newdf.show
+-----+
|value|
+-----+
|    1|
|    3|
|    5|
|    4|
|   18|
+-----+
```
- Je ne pense pas que c'est une bonne réponse.
- vous pouvez vérifier dans spark-shell j'ai partagé le bon de sortie.. c'sna est lié à la façon dont nous pouvons supprimer les valeurs répétées dans la colonne ou df..
- Pouvez-vous donner un exemple basé sur OPs question?
- J'ai donné l'exemple dans ma réponse elle-même. vous pouvez consulter celui-là.
- Votre post n'ajoute aucune valeur à cette discussion. @vaerek a déjà posté un PySpark df.dropDuplicates() exemple, y compris comment il peut être appliqué à plus d'une colonne (ma question de départ).
InformationsquelleAutor Nilesh Shinde

Vous devez vous connecter pour publier un commentaire.