Fusionner des listes qui partagent des éléments communs

Mon entrée est une liste de listes. Certains d'entre eux partagent des éléments communs, par exemple.

L = [['a','b','c'],['b','d','e'],['k'],['o','p'],['e','f'],['p','a'],['d','g']]

J'ai besoin de fusionner toutes les listes, qui partagent un élément commun, et répétez cette procédure tant qu'il n'y a plus de listes avec le même élément. J'ai pensé à utiliser les opérations booléennes et une boucle while, mais ne pouvait pas arriver à une bonne solution.

Le résultat final devrait être:

L = [['a','b','c','d','e','f','g','o','p'],['k']]

Qu'entendez-vous par fusion? L'Union? Pouvez-vous montrer le résultat que vous attendez pour votre exemple de données?
Dans votre exemple, voulez-vous arrêter lorsque vous rencontrez [k]? Ou allez-vous par le biais de toutes vos listes?
ce sujet de la liste [[a, b, c], [b, d, e], [d, f, g]]. Devraient tous être fusionnées en bas à une liste? le premier et le dernier listes n'ont pas un élément en commun.
De toute façon, la complexité sera, au mieux, expotential (probablement le pire). Comment au sujet de l'utilisation de sets au lieu de faire au moins la vérification d'éléments communs rapide?
Vous passez par l'ensemble de la liste une fois, de rejoindre toutes les listes qui ont un élément commun (si bool(ensemble(A) & set(B)) == True). Après que vous vérifiez de nouveau et de nouveau aussi longtemps que vous ne pouvez pas rejoindre le reste de la liste. Si il y a une liste à n éléments communs à d'autres listes, nous la garder comme elle est.

InformationsquelleAutor Wistful Jesus | 2011-01-30

39

Vous pouvez voir votre liste comme une notation pour un Graphe, c'est à dire ['a','b','c'] est un graphe avec 3 nœuds reliés les uns aux autres. Le problème que vous essayez de résoudre est de trouver les composantes connexes de ce graphe.

Vous pouvez utiliser NetworkX pour ce, qui a l'avantage qu'il est à peu près garanti pour être correct:
```
l = [['a','b','c'],['b','d','e'],['k'],['o','p'],['e','f'],['p','a'],['d','g']]

import networkx 
from networkx.algorithms.components.connected import connected_components


def to_graph(l):
    G = networkx.Graph()
    for part in l:
        # each sublist is a bunch of nodes
        G.add_nodes_from(part)
        # it also imlies a number of edges:
        G.add_edges_from(to_edges(part))
    return G

def to_edges(l):
    """ 
        treat `l` as a Graph and returns it's edges 
        to_edges(['a','b','c','d']) -> [(a,b), (b,c),(c,d)]
    """
    it = iter(l)
    last = next(it)

    for current in it:
        yield last, current
        last = current    

G = to_graph(l)
print connected_components(G)
# prints [['a', 'c', 'b', 'e', 'd', 'g', 'f', 'o', 'p'], ['k']]
```
Pour résoudre ce de manière efficace vous-même, vous devez convertir la liste en quelque chose de graphique-ish de toute façon, de sorte que vous pourriez aussi bien utiliser networkX depuis le début.
- En fait j'ai besoin de cela pour créer des graphiques par la suite.
- Jésus: une raison de plus pour utiliser la bibliothèque.
- Cool réponse. Comme une petite suggestion pour le rendre encore plus courte, la to_edges fonction pourrait être remplacé par izip(part[:-1], part[1:]).
- Qu'est-ce que la complexité du temps de connect_components?
InformationsquelleAutor Jochen Ritzel
29

Algorithme:
1. prendre la première à définir Une liste de
2. pour chaque autre ensemble B dans la liste faire si B a de commun élément(s) avec Une jointure B dans Une; supprimer B de la liste
3. répéter 2. jusqu'à ce que plus aucun chevauchement avec Un
4. mettre en outpup
5. répéter 1. avec le reste de la liste
De sorte que vous pouvez utiliser à la place de la liste. Le programme suivant devrait le faire.
```
l = [['a', 'b', 'c'], ['b', 'd', 'e'], ['k'], ['o', 'p'], ['e', 'f'], ['p', 'a'], ['d', 'g']]

out = []
while len(l)>0:
    first, *rest = l
    first = set(first)

    lf = -1
    while len(first)>lf:
        lf = len(first)

        rest2 = []
        for r in rest:
            if len(first.intersection(set(r)))>0:
                first |= set(r)
            else:
                rest2.append(r)     
        rest = rest2

    out.append(first)
    l = rest

print(out)
```
- J'aime cette réponse. Pour moi, la question sent comme un problème. Un petit point: l'élégant first, *rest = l construire est Python 3, de la permutation avec first, rest = l[0], l[1:] semble fonctionner sur python 2.7
InformationsquelleAutor Howard

Je suis tombé sur la même question d'essayer de fusionner les listes avec des valeurs communes. Cet exemple est peut-être ce que vous cherchez.
Il ne passe en boucle sur les listes une fois et les mises à jour de jeu de résultats comme il va.

lists = [['a','b','c'],['b','d','e'],['k'],['o','p'],['e','f'],['p','a'],['d','g']]
lists = sorted([sorted(x) for x in lists]) #Sorts lists in place so you dont miss things. Trust me, needs to be done.

resultslist = [] #Create the empty result list.

if len(lists) >= 1: # If your list is empty then you dont need to do anything.
    resultlist = [lists[0]] #Add the first item to your resultset
    if len(lists) > 1: #If there is only one list in your list then you dont need to do anything.
        for l in lists[1:]: #Loop through lists starting at list 1
            listset = set(l) #Turn you list into a set
            merged = False #Trigger
            for index in range(len(resultlist)): #Use indexes of the list for speed.
                rset = set(resultlist[index]) #Get list from you resultset as a set
                if len(listset & rset) != 0: #If listset and rset have a common value then the len will be greater than 1
                    resultlist[index] = list(listset | rset) #Update the resultlist with the updated union of listset and rset
                    merged = True #Turn trigger to True
                    break #Because you found a match there is no need to continue the for loop.
            if not merged: #If there was no match then add the list to the resultset, so it doesnt get left out.
                resultlist.append(l)
print resultlist

#

resultset = [['a', 'b', 'c', 'd', 'e', 'g', 'f', 'o', 'p'], ['k']]

cet algo n'est pas le bon homme ! si la liste est quelque chose comme ça [[0, 2], [1, 8], [1, 4], [2, 8], [2, 6], [3, 5], [6, 9]] alors le résultat sera de 3 sous-liste au lieu de 2 sous-liste.
cela a depuis été corrigé

InformationsquelleAutor Nicholas Braaksma

6

Je pense que cela peut être résolu par la modélisation du problème sous forme de graphique. Chaque sous-liste est un nœud et les actions d'un bord à un autre nœud si les deux sous-listes ont certains éléments en commun. Ainsi, une fusion de sous-liste est fondamentalement un composant connecté dans le graphique. La fusion de tous les d'eux est tout simplement une question de trouver tous les composants connectés et de les répertorier.

Cela peut être fait par un simple traversal sur le graphique. Les deux BFS et DFS peut être utilisé, mais je suis en utilisant DFS ici, car il est un peu plus courte pour moi.
```
l = [['a','b','c'],['b','d','e'],['k'],['o','p'],['e','f'],['p','a'],['d','g']]
taken=[False]*len(l)
l=[set(elem) for elem in l]

def dfs(node,index):
    taken[index]=True
    ret=node
    for i,item in enumerate(l):
        if not taken[i] and not ret.isdisjoint(item):
            ret.update(dfs(item,i))
    return ret

def merge_all():
    ret=[]
    for i,node in enumerate(l):
        if not taken[i]:
            ret.append(list(dfs(node,i)))
    return ret

print(merge_all())
```
- Cela ne veut pas retourner des résultats incorrects
- Pouvez-vous partager une affaire pour laquelle il échoue?
- ah, il semble que le problème existe en Python 3.5 mais pas de 2.7...
- Pouvez-vous s'il vous plaît partagez l'affaire pour laquelle il échoue en Python 3.5?
- il semble que l'OP devrait L = [['a','b','c','d','e','f','g','o','p'],['k']] mais dans 3.5.3 ce code imprime [['a', 'c', 'b', 'p']]. Je suis peut-être raté quelque chose? Mon post ci-dessus exécute des tests au hasard avec des entrées différentes, de sorte que vous pouvez vérifier que trop...
- Mise à jour du code de travail sur Python 3.5.
InformationsquelleAutor MAK

Comme Jochen Ritzel souligné vous êtes à la recherche de composantes connexes dans un graphe. Voici comment vous pourriez la mettre en œuvre sans l'aide d'un graphique de la bibliothèque:

from collections import defaultdict

def connected_components(lists):
    neighbors = defaultdict(set)
    seen = set()
    for each in lists:
        for item in each:
            neighbors[item].update(each)
    def component(node, neighbors=neighbors, seen=seen, see=seen.add):
        nodes = set([node])
        next_node = nodes.pop
        while nodes:
            node = next_node()
            see(node)
            nodes |= neighbors[node] - seen
            yield node
    for node in neighbors:
        if node not in seen:
            yield sorted(component(node))

L = [['a','b','c'],['b','d','e'],['k'],['o','p'],['e','f'],['p','a'],['d','g']]
print list(connected_components(L))

InformationsquelleAutor pillmuncher

J'avais besoin pour effectuer le regroupement technique décrite par les OP des millions de fois, mais les grandes listes, et donc voulu déterminer laquelle des méthodes proposées ci-dessus est à la fois plus précis et le plus performant.

J'ai couru 10 essais pour la saisie des listes de taille moyenne à partir de 2^1 à 2^10 pour chaque méthode ci-dessus, en utilisant la même liste d'entrée pour chaque méthode, et de mesurer la moyenne d'exécution pour chaque algorithme proposé ci-dessus, en millisecondes. Voici les résultats:

Fusionner des listes qui partagent des éléments communs

Ces résultats m'a aidé à voir que des méthodes qui ont constamment un retour des résultats corrects, @de jochen est le plus rapide. Parmi ces méthodes qui ne sont pas systématiquement renvoyer des résultats corrects, mak est une solution souvent ne comprennent pas tous les éléments de saisie (c'est à dire la liste des membres de la liste sont manquants), et les solutions de braaksma, cmangla, et l'astérisque ne sont pas garantis pour être au maximum de fusionnés.

Il est intéressant de noter que les deux plus rapide, correcte, les algorithmes de les deux montant de upvotes à ce jour, dans correctement l'ordre de classement.

Voici le code utilisé pour exécuter les tests:

from networkx.algorithms.components.connected import connected_components
from itertools import chain
from random import randint, random
from collections import defaultdict, deque
from copy import deepcopy
from multiprocessing import Pool
import networkx
import datetime
import os
##
# @mimomu
##
def mimomu(l):
l = deepcopy(l)
s = set(chain.from_iterable(l))
for i in s:
components = [x for x in l if i in x]
for j in components:
l.remove(j)
l += [list(set(chain.from_iterable(components)))]
return l
##
# @Howard
##
def howard(l):
out = []
while len(l)>0:
first, *rest = l
first = set(first)
lf = -1
while len(first)>lf:
lf = len(first)
rest2 = []
for r in rest:
if len(first.intersection(set(r)))>0:
first |= set(r)
else:
rest2.append(r)
rest = rest2
out.append(first)
l = rest
return out
##
# Nx @Jochen Ritzel
##
def jochen(l):
l = deepcopy(l)
def to_graph(l):
G = networkx.Graph()
for part in l:
# each sublist is a bunch of nodes
G.add_nodes_from(part)
# it also imlies a number of edges:
G.add_edges_from(to_edges(part))
return G
def to_edges(l):
"""
treat `l` as a Graph and returns it's edges
to_edges(['a','b','c','d']) -> [(a,b), (b,c),(c,d)]
"""
it = iter(l)
last = next(it)
for current in it:
yield last, current
last = current
G = to_graph(l)
return list(connected_components(G))
##
# Merge all @MAK
##
def mak(l):
l = deepcopy(l)
taken=[False]*len(l)
l=map(set,l)
def dfs(node,index):
taken[index]=True
ret=node
for i,item in enumerate(l):
if not taken[i] and not ret.isdisjoint(item):
ret.update(dfs(item,i))
return ret
def merge_all():
ret=[]
for i,node in enumerate(l):
if not taken[i]:
ret.append(list(dfs(node,i)))
return ret
result = list(merge_all())
return result
##
# @cmangla
##
def cmangla(l):
l = deepcopy(l)
len_l = len(l)
i = 0
while i < (len_l - 1):
for j in range(i + 1, len_l):
# i,j iterate over all pairs of l's elements including new
# elements from merged pairs. We use len_l because len(l)
# may change as we iterate
i_set = set(l[i])
j_set = set(l[j])
if len(i_set.intersection(j_set)) > 0:
# Remove these two from list
l.pop(j)
l.pop(i)
# Merge them and append to the orig. list
ij_union = list(i_set.union(j_set))
l.append(ij_union)
# len(l) has changed
len_l -= 1
# adjust 'i' because elements shifted
i -= 1
# abort inner loop, continue with next l[i]
break
i += 1
return l
##
# @pillmuncher
##
def pillmuncher(l):
l = deepcopy(l)
def connected_components(lists):
neighbors = defaultdict(set)
seen = set()
for each in lists:
for item in each:
neighbors[item].update(each)
def component(node, neighbors=neighbors, seen=seen, see=seen.add):
nodes = set([node])
next_node = nodes.pop
while nodes:
node = next_node()
see(node)
nodes |= neighbors[node] - seen
yield node
for node in neighbors:
if node not in seen:
yield sorted(component(node))
return list(connected_components(l))
##
# @NicholasBraaksma
##
def braaksma(l):
l = deepcopy(l)
lists = sorted([sorted(x) for x in l]) #Sorts lists in place so you dont miss things. Trust me, needs to be done.
resultslist = [] #Create the empty result list.
if len(lists) >= 1: # If your list is empty then you dont need to do anything.
resultlist = [lists[0]] #Add the first item to your resultset
if len(lists) > 1: #If there is only one list in your list then you dont need to do anything.
for l in lists[1:]: #Loop through lists starting at list 1
listset = set(l) #Turn you list into a set
merged = False #Trigger
for index in range(len(resultlist)): #Use indexes of the list for speed.
rset = set(resultlist[index]) #Get list from you resultset as a set
if len(listset & rset) != 0: #If listset and rset have a common value then the len will be greater than 1
resultlist[index] = list(listset | rset) #Update the resultlist with the updated union of listset and rset
merged = True #Turn trigger to True
break #Because you found a match there is no need to continue the for loop.
if not merged: #If there was no match then add the list to the resultset, so it doesnt get left out.
resultlist.append(l)
return resultlist
##
# @Rumple Stiltskin
##
def stiltskin(l):
l = deepcopy(l)
hashdict = defaultdict(int)
def hashit(x, y):
for i in y: x[i] += 1
return x
def merge(x, y):
sums = sum([hashdict[i] for i in y])
if sums > len(y):
x[0] = x[0].union(y)
else:
x[1] = x[1].union(y)
return x
hashdict = reduce(hashit, l, hashdict)
sets = reduce(merge, l, [set(),set()])
return list(sets)
##
# @Asterisk
##
def asterisk(l):
l = deepcopy(l)
results = {}
for sm in ['min', 'max']:
sort_method = min if sm == 'min' else max
l = sorted(l, key=lambda x:sort_method(x))
queue = deque(l)
grouped = []
while len(queue) >= 2:
l1 = queue.popleft()
l2 = queue.popleft()
s1 = set(l1)
s2 = set(l2)
if s1 & s2:
queue.appendleft(s1 | s2)
else:
grouped.append(s1)
queue.appendleft(s2)
if queue:
grouped.append(queue.pop())
results[sm] = grouped
if len(results['min']) < len(results['max']):
return results['min']
return results['max']
##
# Validate no more clusters can be merged
##
def validate(output, L):
# validate all sublists are maximally merged
d = defaultdict(list)
for idx, i in enumerate(output):
for j in i:
d[j].append(i)
if any([len(i) > 1 for i in d.values()]):
return 'not maximally merged'
# validate all items in L are accounted for
all_items = set(chain.from_iterable(L))
accounted_items = set(chain.from_iterable(output))
if all_items != accounted_items:
return 'missing items'
# validate results are good
return 'true'
##
# Timers
##
def time(func, L):
start = datetime.datetime.now()
result = func(L)
delta = datetime.datetime.now() - start
return result, delta
##
# Function runner
##
def run_func(args):
func, L, input_size = args
results, elapsed = time(func, L)
validation_result = validate(results, L)
return func.__name__, input_size, elapsed, validation_result
##
# Main
##
all_results = defaultdict(lambda: defaultdict(list))
funcs = [mimomu, howard, jochen, mak, cmangla, braaksma, asterisk]
args = []
for trial in range(10):
for s in range(10):
input_size = 2**s
# get some random inputs to use for all trials at this size
L = []
for i in range(input_size):
sublist = []
for j in range(randint(5, 10)):
sublist.append(randint(0, 2**24))
L.append(sublist)
for i in funcs:
args.append([i, L, input_size])
pool = Pool()
for result in pool.imap(run_func, args):
func_name, input_size, elapsed, validation_result = result
all_results[func_name][input_size].append({
'time': elapsed,
'validation': validation_result,
})
# show the running time for the function at this input size
print(input_size, func_name, elapsed, validation_result)
pool.close()
pool.join()
# write the average of time trials at each size for each function
with open('times.tsv', 'w') as out:
for func in all_results:
validations = [i['validation'] for j in all_results[func] for i in all_results[func][j]]
linetype = 'incorrect results' if any([i != 'true' for i in validations]) else 'correct results'
for input_size in all_results[func]:
all_times = [i['time'].microseconds for i in all_results[func][input_size]]
avg_time = sum(all_times) / len(all_times)
out.write(func + '\t' + str(input_size) + '\t' + \
str(avg_time) + '\t' + linetype + '\n')

Et pour le traçage:

library(ggplot2)
df <- read.table('times.tsv', sep='\t')
p <- ggplot(df, aes(x=V2, y=V3, color=as.factor(V1))) +
geom_line() +
xlab('number of input lists') +
ylab('runtime (ms)') +
labs(color='') +
scale_x_continuous(trans='log10') +
facet_wrap(~V4, ncol=1)
ggsave('runtimes.png')

InformationsquelleAutor duhaime

Ma tentative. A fonctionnel pour elle.

#!/usr/bin/python
from collections import defaultdict
l = [['a','b','c'],['b','d','e'],['k'],['o','p'],['e','f'],['p','a'],['d','g']]
hashdict = defaultdict(int)
def hashit(x, y):
for i in y: x[i] += 1
return x
def merge(x, y):
sums = sum([hashdict[i] for i in y])
if sums > len(y):
x[0] = x[0].union(y)
else:
x[1] = x[1].union(y)
return x
hashdict = reduce(hashit, l, hashdict)
sets = reduce(merge, l, [set(),set()])
print [list(sets[0]), list(sets[1])]

InformationsquelleAutor Rumple Stiltskin

J'ai trouvé itertools une option rapide pour la fusion des listes et il a résolu ce problème pour moi:

import itertools
LL = set(itertools.chain.from_iterable(L)) 
# LL is {'a', 'b', 'c', 'd', 'e', 'f', 'g', 'k', 'o', 'p'}
for each in LL:
components = [x for x in L if each in x]
for i in components:
L.remove(i)
L += [list(set(itertools.chain.from_iterable(components)))]
# then L = [['k'], ['a', 'c', 'b', 'e', 'd', 'g', 'f', 'o', 'p']]

Pour les grands ensembles de tri LL par la fréquence de la plupart des éléments communs au moins peut accélérer un peu les choses

InformationsquelleAutor mimomu

C'est assez rapide solution sans dépendances. Il fonctionne comme suit:

Attribuer un numéro de référence unique à chacun de vos subsiste (dans ce cas, le premier indice de la sous-liste)
Créer un dictionnaire des éléments de référence pour chaque sous-liste, et pour chaque élément de chaque sous-liste.
Répéter la procédure suivante jusqu'à ce qu'il ne cause pas de changements:

3a. Aller à travers chaque élément de chaque sous-liste. Si l'élément actuel numéro de référence est différent du numéro de référence de ses sous-liste, l'élément doit faire partie de deux listes. Fusionner les deux listes (suppression de l'actuelle sous-liste de référence) et de définir le numéro de référence de tous les articles dans le courant de la sous-liste à être le numéro de référence de la nouvelle sous-liste.

Lorsque cette procédure entraîne pas de changements, c'est parce que tous les éléments font partie de exactement une liste. Car travailler ensemble est une diminution de la taille à chaque itération, l'algorithme se termine nécessairement.

   def merge_overlapping_sublists(lst):
output, refs = {}, {}
for index, sublist in enumerate(lst):
output[index] = set(sublist)
for elem in sublist:
refs[elem] = index
changes = True
while changes:
changes = False
for ref_num, sublist in list(output.items()):
for elem in sublist:
current_ref_num = refs[elem]
if current_ref_num != ref_num:
changes = True
output[current_ref_num] |= sublist
for elem2 in sublist:
refs[elem2] = current_ref_num
output.pop(ref_num)
break
return list(output.values())

Voici une série de tests pour ce code:

def compare(a, b):
a = list(b)
try:
for elem in a:
b.remove(elem)
except ValueError:
return False
return not b
import random
lst = [["a", "b"], ["b", "c"], ["c", "d"], ["d", "e"]]
random.shuffle(lst)
assert compare(merge_overlapping_sublists(lst), [{"a", "b", "c", "d", "e"}])
lst = [["a", "b"], ["b", "c"], ["f", "d"], ["d", "e"]]
random.shuffle(lst)
assert compare(merge_overlapping_sublists(lst), [{"a", "b", "c",}, {"d", "e", "f"}])
lst = [["a", "b"], ["k", "c"], ["f", "g"], ["d", "e"]]
random.shuffle(lst)
assert compare(merge_overlapping_sublists(lst), [{"a", "b"}, {"k", "c"}, {"f", "g"}, {"d", "e"}])
lst = [["a", "b", "c"], ["b", "d", "e"], ["k"], ["o", "p"], ["e", "f"], ["p", "a"], ["d", "g"]]
random.shuffle(lst)
assert compare(merge_overlapping_sublists(lst), [{"k"}, {"a", "c", "b", "e", "d", "g", "f", "o", "p"}])    
lst = [["a", "b"], ["b", "c"], ["a"], ["a"], ["b"]]
random.shuffle(lst)
assert compare(merge_overlapping_sublists(lst), [{"a", "b", "c"}])

Noter que la valeur de retour est une liste de jeux.

InformationsquelleAutor Zags

0

Sans savoir très bien ce que vous voulez, j'ai décidé de deviner juste vous dire: je veux trouver chaque élément, juste une fois.
```
#!/usr/bin/python
def clink(l, acc):
for sub in l:
if sub.__class__ == list:
clink(sub, acc)
else:
acc[sub]=1
def clunk(l):
acc = {}
clink(l, acc)
print acc.keys()
l = [['a', 'b', 'c'], ['b', 'd', 'e'], ['k'], ['o', 'p'], ['e', 'f'], ['p', 'a'], ['d', 'g']]
clunk(l)
```
De sortie ressemble à ceci:
```
['a', 'c', 'b', 'e', 'd', 'g', 'f', 'k', 'o', 'p']
```
- .__class__ == list l'air si incroyablement mauvais. À tout le moins, isinstance(sub, list). Si seulement comme une question de principe. (Aussi, vous pourriez/devriez utiliser un jeu au lieu d'un dict avec de fausses valeurs.)
- coupable sur les deux plans 🙂
- Aussi k ne doit pas être connecté à d'autres composants par l'OP question
- heh, la modification qui a ajouté que la condition a été ajoutée après que j'ai posté ma réponse. Il est instructif de constater que au lieu de répondre à la question que je doit avoir demandé à l'affiche d'écrire une meilleure question en premier. Merci.
- merci de m'avoir montré l' .__la classe__ hack!
InformationsquelleAutor sarnold

C'est peut-être plus simple, plus rapide de l'algorithme et semble bien fonctionner -

l = [['a', 'b', 'c'], ['b', 'd', 'e'], ['k'], ['o', 'p'], ['e', 'f'], ['p', 'a'], ['d', 'g']]
len_l = len(l)
i = 0
while i < (len_l - 1):
for j in range(i + 1, len_l):
# i,j iterate over all pairs of l's elements including new 
# elements from merged pairs. We use len_l because len(l)
# may change as we iterate
i_set = set(l[i])
j_set = set(l[j])
if len(i_set.intersection(j_set)) > 0:
# Remove these two from list
l.pop(j)
l.pop(i)
# Merge them and append to the orig. list
ij_union = list(i_set.union(j_set))
l.append(ij_union)
# len(l) has changed
len_l -= 1
# adjust 'i' because elements shifted
i -= 1
# abort inner loop, continue with next l[i]
break
i += 1
print l
# prints [['k'], ['a', 'c', 'b', 'e', 'd', 'g', 'f', 'o', 'p']]

InformationsquelleAutor cmangla

Je manque un non quirurgic version. Je l'ai posté sur 2018 (7 ans plus tard)

Un facile et understable approche:

1) faire le produit cartésien ( cross join ) la fusion de deux si les éléments en commun

2) supprimer dup

#your list
l=[['a','b','c'],['b','d','e'],['k'],['o','p'],['e','f'],['p','a'],['d','g']]
#import itertools
from itertools import product, groupby
#inner lists to sets (to list of sets)
l=[set(x) for x in l]
#cartesian product merging elements if some element in common
for a,b in product(l,l):
if a.intersection( b ):
a.update(b)
b.update(a)
#back to list of lists
l = sorted( [sorted(list(x)) for x in l])
#remove dups
list(l for l,_ in groupby(l))
#result
[['a', 'b', 'c', 'd', 'e', 'f', 'g', 'o', 'p'], ['k']]

InformationsquelleAutor dani herrera

Vous pouvez utiliser networkx bibliothèque, car c'est un la théorie des graphes et les composants connectés problème:

import networkx as nx
L = [['a','b','c'],['b','d','e'],['k'],['o','p'],['e','f'],['p','a'],['d','g']]
G = nx.Graph()
#Add nodes to Graph    
G.add_nodes_from(sum(L, []))
#Create edges from list of nodes
q = [[(s[i],s[i+1]) for i in range(len(s)-1)] for s in L]
for i in q:
#Add edges to Graph
G.add_edges_from(i)
#Find all connnected components in graph and list nodes for each component
[list(i) for i in nx.connected_components(G)]

De sortie:

[['p', 'c', 'f', 'g', 'o', 'a', 'd', 'b', 'e'], ['k']]

InformationsquelleAutor Scott Boston

Vous devez vous connecter pour publier un commentaire.