La suppression des doublons dans une liste de listes

J'ai une liste de listes en Python:

k = [[1, 2], [4], [5, 6, 2], [1, 2], [3], [4]]

Et je veux supprimer dupliquer des éléments. A si c'est une liste normale pas de listes que je pouvais utilisé set. Mais regrettable que la liste n'est pas hashable et ne peut pas faire de ensemble de listes. Seulement de tuples. Donc, je peux tourner toutes les listes les tuples puis utiliser ensemble et de retour à des listes. Mais ce n'est pas rapide.

Comment ce fait de la manière la plus efficace?

Le résultat de la liste ci-dessus devraient être:

k = [[5, 6, 2], [1, 2], [3], [4]]

Je ne se soucient pas de préserver l'ordre.

Remarque: cette question est similaire mais pas tout à fait ce dont j'ai besoin. Cherché mais n'ai pas trouver la copie exacte.

Benchmarking:

import itertools, time
class Timer(object):
def __init__(self, name=None):
self.name = name
def __enter__(self):
self.tstart = time.time()
def __exit__(self, type, value, traceback):
if self.name:
print '[%s]' % self.name,
print 'Elapsed: %s' % (time.time() - self.tstart)
k = [[1, 2], [4], [5, 6, 2], [1, 2], [3], [5, 2], [6], [8], [9]] * 5
N = 100000
print len(k)
with Timer('set'):
for i in xrange(N):
kt = [tuple(i) for i in k]
skt = set(kt)
kk = [list(i) for i in skt]
with Timer('sort'):
for i in xrange(N):
ks = sorted(k)
dedup = [ks[i] for i in xrange(len(ks)) if i == 0 or ks[i] != ks[i-1]]
with Timer('groupby'):
for i in xrange(N):
k = sorted(k)
dedup = list(k for k, _ in itertools.groupby(k))
with Timer('loop in'):
for i in xrange(N):
new_k = []
for elem in k:
if elem not in new_k:
new_k.append(elem)

"boucle" (quadratique de la méthode) le plus rapide de tous pour de courtes listes. Pendant de longues listes, il est plus rapide que tout le monde sauf groupby méthode. Est-il logique?

Pour la courte liste (celle dans le code), 100000 itérations:

[set] Elapsed: 1.3900001049
[sort] Elapsed: 0.891000032425
[groupby] Elapsed: 0.780999898911
[loop in] Elapsed: 0.578000068665

Pour plus de la liste (celui dans le code dupliqué 5 fois):

[set] Elapsed: 3.68700003624
[sort] Elapsed: 3.43799996376
[groupby] Elapsed: 1.03099989891
[loop in] Elapsed: 1.85900020599

Par "ce n'est pas rapide", vous voulez dire que vous avez chronométré et il n'est pas assez rapide pour votre application, ou que vous pensez qu'il n'est pas rapide?
il semble juste comme trop de copie d'être intelligent méthode. désolé, le gut feeling. copie des listes de n-uplets, puis dans le jeu, puis retour à la liste de listes (copie de nouveau tuples, listes)
ce n'est pas la façon Python fonctionne, rien ne pourra être copié, juste de nouveaux conteneurs pour les éléments existants ( bien que pour les entiers, c'est à peu près le même )
1. les horaires pour les méthodes à l'aide de tri sont dégonflés, parce que le "k" est le rebond de la triés variante. 2. La dernière méthode est plus rapide, car la méthode utilisée pour générer les données de test vous laisse avec au plus 4 éléments distincts. Essayez de qqch. comme K = [[int(u) pour u dans str(aléatoire.randrange(1, 1000))] for _ in range(100)]
merci fixe. mais encore, la méthode de boucle est rapide, même lorsqu'il n'existe qu'un seul doublon dans la liste des 10
Oui, pour les petits de saisie des listes, "boucle" sera plus rapide. Sa complexité est en O(mn), où m est le nombre d'éléments uniques (de n). De sorte que le moins unique, il y a d'éléments, plus il est (c'est à dire linéaire pour les listes avec un seul et unique élément). Pour de courtes listes, la constante de facteurs à la fois de "trier" et "groupe" sont trop élevés pour eux d'être plus rapide que la "boucle".
pour mesurer la performance d'un cas spécifique, l'utilisation de la bibliothèque standard du module de timeit à l'invite du shell (plus simple et plus solide, beaucoup mieux que d'intégrer dans le code). Je vais modifier mon Un de le montrer.
comme Torsten dit, la boucle est rapide avec de petits échantillons. C'est tout à fait normal dans des algorithmes engager dans de petits coûts constants (création d'une liste vide vd. création d'une liste à partir d'un n-uplet). Mais il croit toujours quadratiquement, ce qui signifie que les méthodes linéaires sera plus rapide que la boucle à un certain point.
Je voudrais juste faire remarquer que vous êtes seuls des essais sur ce que j'appelle "court" des listes. Une "longue" liste pour m'aurait peut-être ou 10k 100k éléments, peut-être quelques millions de dollars.

InformationsquelleAutor zaharpopov | 2010-02-06

python

146
```
>>> k = [[1, 2], [4], [5, 6, 2], [1, 2], [3], [4]]
>>> import itertools
>>> k.sort()
>>> list(k for k,_ in itertools.groupby(k))
[[1, 2], [3], [4], [5, 6, 2]]
```
itertools offre souvent la manière la plus rapide et la plus puissante des solutions à ce genre de problèmes, et est bien vaut la peine de s'intimement familier avec!-)

Modifier: comme je le mentionne dans un commentaire, normal optimisation des efforts se sont concentrés sur les grandes entrées (le big-O approche) parce que c'est tellement plus facile qu'il offre de bons rendements sur les efforts. Mais parfois (essentiellement pour "tragiquement crucial goulets d'étranglement" dans intérieure, profonde de boucles de code qui pousse les limites de la performance des limites), on peut avoir besoin d'aller dans beaucoup plus de détails, fournissant des distributions de probabilité, décider qui des mesures de rendement pour optimiser (peut-être la limite supérieure ou la 90e centile est plus important que la moyenne ou la médiane, selon les applications), en procédant éventuellement-heuristique vérifie au début pour choisir les différents algorithmes en fonction des données d'entrée caractéristiques, et ainsi de suite.

Des mesures précises de "point" de la performance (code vs code B pour une entrée spécifique) sont une partie de cette très coûteux, et de la bibliothèque standard du module de timeit aide ici. Cependant, il est plus facile de l'utiliser à l'invite du shell. Pour exemple, voici un court module de présenter l'approche générale de ce problème, enregistrez-le au nodup.py:
```
import itertools
k = [[1, 2], [4], [5, 6, 2], [1, 2], [3], [4]]
def doset(k, map=map, list=list, set=set, tuple=tuple):
return map(list, set(map(tuple, k)))
def dosort(k, sorted=sorted, xrange=xrange, len=len):
ks = sorted(k)
return [ks[i] for i in xrange(len(ks)) if i == 0 or ks[i] != ks[i-1]]
def dogroupby(k, sorted=sorted, groupby=itertools.groupby, list=list):
ks = sorted(k)
return [i for i, _ in itertools.groupby(ks)]
def donewk(k):
newk = []
for i in k:
if i not in newk:
newk.append(i)
return newk
# sanity check that all functions compute the same result and don't alter k
if __name__ == '__main__':
savek = list(k)
for f in doset, dosort, dogroupby, donewk:
resk = f(k)
assert k == savek
print '%10s %s' % (f.__name__, sorted(resk))
```
Remarque le test de cohérence (effectuée lorsque vous venez de le faire python nodup.py) et la base technique de levage (faire de la constante globale de noms local pour chaque fonction de la vitesse), de mettre les choses sur un pied d'égalité.

Maintenant, nous pouvons exécuter des vérifications sur le petit exemple de liste:
```
$ python -mtimeit -s'import nodup' 'nodup.doset(nodup.k)'
100000 loops, best of 3: 11.7 usec per loop
$ python -mtimeit -s'import nodup' 'nodup.dosort(nodup.k)'
100000 loops, best of 3: 9.68 usec per loop
$ python -mtimeit -s'import nodup' 'nodup.dogroupby(nodup.k)'
100000 loops, best of 3: 8.74 usec per loop
$ python -mtimeit -s'import nodup' 'nodup.donewk(nodup.k)'
100000 loops, best of 3: 4.44 usec per loop
```
confirmant que l'équation du second degré approche a petit-assez constantes pour le rendre attrayant pour les petites listes avec quelques valeurs dupliquées. Avec une courte liste sans doublons:
```
$ python -mtimeit -s'import nodup' 'nodup.donewk([[i] for i in range(12)])'
10000 loops, best of 3: 25.4 usec per loop
$ python -mtimeit -s'import nodup' 'nodup.dogroupby([[i] for i in range(12)])'
10000 loops, best of 3: 23.7 usec per loop
$ python -mtimeit -s'import nodup' 'nodup.doset([[i] for i in range(12)])'
10000 loops, best of 3: 31.3 usec per loop
$ python -mtimeit -s'import nodup' 'nodup.dosort([[i] for i in range(12)])'
10000 loops, best of 3: 25 usec per loop
```
quadratiques approche n'est pas mauvaise, mais les trier et grouper sont les meilleures. Etc, etc.

Si (comme l'obsession de la performance suggère) cette opération est à un noyau boucle intérieure de votre repousser les limites de l'application, il vaut la peine d'essayer la même série de tests sur d'autres représentant des échantillons d'entrée, éventuellement détecter une simple mesure de manière heuristique vous permettent de choisir l'une ou l'autre approche (mais la mesure doit être rapide, bien sûr).

Il est également bien la peine d'envisager de garder une représentation différente pour k -- pourquoi a-t-elle à être une liste de listes plutôt que d'un ensemble de n-uplets en premier lieu? Si la double tâche de suppression est fréquent, et le profilage montre le programme du goulot d'étranglement des performances, la tenue d'un ensemble de n-uplets tout le temps et d'obtenir une liste de listes de si et, le cas échéant, pourrait être plus rapide dans l'ensemble, par exemple.
- merci pour l'alternative. cette méthode environ la même vitesse que danben, un peu de % plus rapide
- étrangement c'est plus lent qu'un naïf quadratique de la méthode pour les courtes listes (voir la question edit)
- c'est de cette façon que dans votre cas particulier, cf. mon commentaire à la question.
- si vous donnez une distribution de probabilité de liste et sous-longueurs et les risques de doublons, c'est possible (avec un énorme effort) pour calculer/mesurer le temps d'exécution de distribution de probabilité pour chaque code et optimiser quelle que soit la mesure dont vous avez besoin (médiane, moyenne, 90e centile, peu importe). Il est à peine jamais fait à cause de la très faible retour sur investissement: normalement, on met l'accent sur le beaucoup plus facilement les cas de grandes entrées (le big-O de l'approche), où des algorithmes inférieurs serait vraiment nuire à la performance d'terriblement. Et je ne vois pas de spécifier des distributions de probabilité dans votre Q de toute façon;-).
- heureux que vous ayez aimé!
- Êtes-vous à l'aide de k que la liste du nom et de l' k comme la variable d'itérateur?
- non, pourquoi demandez-vous?
- Dans list(k for k,_ in itertools.groupby(k)), je suis sûr que le k dans list(k for k... est différente de la k dans grouby(k), et si je ont été de plus en plus sûr que serais je suggère de renommer la liste. Ma question ci-dessus peut-être pas utiliser le bon vocabulaire
- Je suis également troublé par le k, comment cela fonctionne? Ou sont-ils différents et que j'ai pu écrire: list(x for x,_ in itertools.groupby(k)) ?
- sauve-moi de tous les temps!
- cela fonctionne pour mon problème, cependant, je suis tout à fait embobiner par le " k,_'. C'est une compréhension de liste? Pouvez-vous m'expliquer ou m'indiquer la littérature s'il vous plaît?
- avertissement: le k.sort() fonction supprime les ordres dans cette liste. Je ne savais pas ce et a dû passer des heures de débogage, comme dans mon cas d'utilisation des commandes de la matière. Pour le résoudre, avant de les trier vous pouvez utiliser copy.copy() de faire une copie de la liste!
InformationsquelleAutor Alex Martelli
18

De le faire manuellement, la création d'une nouvelle k liste et ajouter des entrées pas trouvé à ce jour:
```
k = [[1, 2], [4], [5, 6, 2], [1, 2], [3], [4]]
new_k = []
for elem in k:
if elem not in new_k:
new_k.append(elem)
k = new_k
print k
# prints [[1, 2], [4], [5, 6, 2], [3]]
```
Simple à comprendre, et de vous conserver l'ordre de la première occurrence de chaque élément qui devrait être utile, mais je suppose que c'est quadratique en complexité à mesure que vous êtes à la recherche de l'ensemble de new_k pour chaque élément.
- très étrange, cette méthode est plus rapide que tous les autres
- Je soupçonne que cette méthode ne sera pas plus rapide pour de très longues listes. Cela dépendra de votre demande: si vraiment vous suffit de six éléments des listes avec deux doubles, alors toute solution est susceptible d'être assez rapide et vous devez aller avec le plus clair de code.
- Ce n'est pas quadratique dans votre indice de référence en raison de la duplication de la même liste de plus et plus. Vous êtes un étalonnage avec un linéaire de cas de coin.
- k = ([[1, 2], [4], [5, 6, 2], [1, 2], [3], [5, 2], [6], [8], [9]] +[[x] for x in range(1000)]) *5 fera apparaître le comportement quadratique bien
InformationsquelleAutor Paul Stephenson
17
```
>>> k = [[1, 2], [4], [5, 6, 2], [1, 2], [3], [4]]
>>> k = sorted(k)
>>> k
[[1, 2], [1, 2], [3], [4], [4], [5, 6, 2]]
>>> dedup = [k[i] for i in range(len(k)) if i == 0 or k[i] != k[i-1]]
>>> dedup
[[1, 2], [3], [4], [5, 6, 2]]
```
Je ne sais pas si c'est forcément plus rapide, mais vous n'avez pas à utiliser pour les tuples et les décors.
- Merci danben. ce plus rapide que d'avoir recours à des tuples puis " set " puis retour à la liste?
- Vous pouvez facilement tester cette écriture à la fois deduping méthodes, générer certains des listes aléatoires à l'aide de random, et le temps avec time.
InformationsquelleAutor danben
3

Même votre "longue", la liste est assez courte. Aussi, avez-vous choisis pour correspondre aux données réelles? Les performances varient avec ce que ces données ressemblent réellement. Par exemple, vous avez une courte liste répétés à plusieurs reprises de faire une liste plus longue. Cela signifie que l'équation de la solution est linéaire dans tes repères, mais pas dans la réalité.

Pour fait-listes de grande taille, le code est votre meilleur pari—c'est linéaire (même si l'espace-faim). Les trier et grouper les méthodes sont en O(n log n) et la boucle de la méthode est évidemment quadratique, afin de savoir comment ces sera mis à l'échelle en tant que n devient très grand. Si c'est la taille réelle des données que vous analysez, alors qui s'en soucie? Il est minuscule.

D'ailleurs, je vois une notable accélération si je n'ai pas la forme intermédiaire de la liste à faire le jeu, c'est-à-dire si je remplace
```
kt = [tuple(i) for i in k]
skt = set(kt)
```
avec
```
skt = set(tuple(i) for i in k)
```
La vraie solution peut dépendre plus d'informations: Êtes-vous sûr que d'une liste de listes est vraiment la représentation-vous besoin?

InformationsquelleAutor Mike Graham

Liste de tuple et {} peut être utilisé pour supprimer les doublons

>>> [list(tupl) for tupl in {tuple(item) for item in k }]
[[1, 2], [5, 6, 2], [3], [4]]
>>>

InformationsquelleAutor SuperNova

3

Tous les setdes solutions à ce problème jusqu'à présent nécessitent la création d'un ensemble de set avant itération.

Il est possible de faire cette paresseux, et en même temps préserver l'ordre, par l'itération sur la liste de listes et de les ajouter à un "vu" set. Alors seulement le rendement d'une liste si elle n'est trouvé dans ce tracker set.

Ce unique_everseen la recette est disponible dans le itertools docs. Il est également disponible dans la 3ème partie toolz bibliothèque:
```
from toolz import unique
k = [[1, 2], [4], [5, 6, 2], [1, 2], [3], [4]]
# lazy iterator
res = map(list, unique(map(tuple, k)))
print(list(res))
[[1, 2], [4], [5, 6, 2], [3]]
```
Noter que tuple de conversion est nécessaire parce que les listes ne sont pas hashable.

InformationsquelleAutor jpp
1

Créer un dictionnaire avec un tuple comme les clés, et d'imprimer les touches.
- créer le dictionnaire avec un tuple comme clé et de l'indice de valeur
- imprimer la liste de clés de dictionnaire
```
k = [[1, 2], [4], [5, 6, 2], [1, 2], [3], [4]]
dict_tuple = {tuple(item): index for index, item in enumerate(k)}
print [list(itm) for itm in dict_tuple.keys()]
# prints [[1, 2], [5, 6, 2], [3], [4]]
```
InformationsquelleAutor SuperNova

Cela devrait fonctionner.

k = [[1, 2], [4], [5, 6, 2], [1, 2], [3], [4]]
k_cleaned = []
for ele in k:
if set(ele) not in [set(x) for x in k_cleaned]:
k_cleaned.append(ele)
print(k_cleaned)
# output: [[1, 2], [4], [5, 6, 2], [3]]

InformationsquelleAutor Zoe L

Étrangement, les réponses ci-dessus supprime les "doublons" mais que si je veux enlever le double de la valeur aussi??
Les éléments suivants doivent être utiles et de ne pas créer un nouvel objet dans la mémoire!

def dictRemoveDuplicates(self):
a=[[1,'somevalue1'],[1,'somevalue2'],[2,'somevalue1'],[3,'somevalue4'],[5,'somevalue5'],[5,'somevalue1'],[5,'somevalue1'],[5,'somevalue8'],[6,'somevalue9'],[6,'somevalue0'],[6,'somevalue1'],[7,'somevalue7']]
print(a)
temp = 0
position = -1
for pageNo, item in a:
position+=1
if pageNo != temp:
temp = pageNo
continue
else:
a[position] = 0
a[position - 1] = 0
a = [x for x in a if x != 0]         
print(a)

et l'o/p est:

[[1, 'somevalue1'], [1, 'somevalue2'], [2, 'somevalue1'], [3, 'somevalue4'], [5, 'somevalue5'], [5, 'somevalue1'], [5, 'somevalue1'], [5, 'somevalue8'], [6, 'somevalue9'], [6, 'somevalue0'], [6, 'somevalue1'], [7, 'somevalue7']]
[[2, 'somevalue1'], [3, 'somevalue4'], [7, 'somevalue7']]

InformationsquelleAutor zorze

-1

L'autre sans doute plus générique et plus simple solution consiste à créer un dictionnaire identifié par la chaîne de version de les objets et obtenir les valeurs de() à la fin:
```
>>> dict([(unicode(a),a) for a in [["A", "A"], ["A", "A"], ["A", "B"]]]).values()
[['A', 'B'], ['A', 'A']]
```
Le hic, c'est que cela ne fonctionne que pour les objets dont la représentation sous forme de chaîne est suffisamment bons clé unique (ce qui est vrai pour la plupart des objets natifs).

InformationsquelleAutor jacmkno

Vous devez vous connecter pour publier un commentaire.