c# - Comment trouver tous les doublons d'une Liste<string>?

198

Dans .NET framework 3.5 et ci-dessus, vous pouvez utiliser Enumerable.GroupBy qui retourne une énumération de enumerables de doubles de clés, puis filtrer le tout de la enumerables qui ont un nombre de <=1, puis sélectionnez leurs touches à revenir vers le bas pour un seul énumérable:
```
var duplicateKeys = list.GroupBy(x => x)
                        .Where(group => group.Count() > 1)
                        .Select(group => group.Key);
```
- Cela donne toutes les lignes regroupées en fonction de leurs valeurs, pas de doublons... vous avez encore de filtrer par Count() > 1. Aussi, la façon dont je comprends la question, chaque ligne contient plusieurs mots, et l'OP veut le double de mots (mais peut-être que j'ai mal compris la question)
- oui, le code n'est pas complet, c'est juste la première étape. Ensuite, il peut utiliser une Where si il veut juste les doublons, comme list.GroupBy(x => x).Where(group => group.Count() > 1).Select(group => Group.Key).ToList()
InformationsquelleAutor Giuseppe Ottaviano
30

Si vous êtes à l'aide de LINQ, vous pouvez utiliser la requête suivante:
```
var duplicateItems = from x in list
                     group x by x into grouped
                     where grouped.Count() > 1
                     select grouped.Key;
```
ou, si vous préférez, sans sucre syntaxique:
```
var duplicateItems = list.GroupBy(x => x).Where(x => x.Count() > 1).Select(x => x.Key);
```
Cette partie regroupe tous les éléments qui sont les mêmes, et les filtres à ceux des groupes avec plus d'un élément. Enfin, il sélectionne la clé de ces groupes que vous n'avez pas besoin de les compter.

Si vous préférez ne pas utiliser LINQ, vous pouvez utiliser cette méthode d'extension:
```
public void SomeMethod {
    var duplicateItems = list.GetDuplicates();
    …
}

public static IEnumerable<T> GetDuplicates<T>(this IEnumerable<T> source) {
    HashSet<T> itemsSeen = new HashSet<T>();
    HashSet<T> itemsYielded = new HashSet<T>();

    foreach (T item in source) {
        if (!itemsSeen.Add(item)) {
            if (itemsYielded.Add(item)) {
                yield return item;
            }
        }
    }
}
```
Ce garde la trace des éléments qu'il a vu et l'a donné. Si elle n'a pas vu un article avant, il l'ajoute à la liste de vu des éléments, sinon elle l'ignore. Si elle n'a pas abouti à un élément avant, il donne, sinon il l'ignore.
- +1 pour HashSet. Je pense qu'en interne(à cause de la commande et des trucs) il effectue une recherche plus rapide.
- PMSL @ 'sans sucre syntaxique'. C'est vraiment un autre nom pour LINQ Méthode de la syntaxe.
- si vous n'avez pas besoin de suivre le itemsSeen puis la boucle peut être simplifié comme: foreach (T item in source) { if (!itemsYielded.Add(item)) { yield return item; } }
InformationsquelleAutor ICR

et sans LINQ:

string[] ss = {"1","1","1"};

var myList = new List<string>();
var duplicates = new List<string>();

foreach (var s in ss)
{
   if (!myList.Contains(s))
      myList.Add(s);
   else
      duplicates.Add(s);
}

//show list without duplicates 
foreach (var s in myList)
   Console.WriteLine(s);

//show duplicates list
foreach (var s in duplicates)
   Console.WriteLine(s);

pourquoi utiliser le var où l'on peut déclarer sans la surcharge?
Il n'y a pas de "frais généraux" dans var.
ma propre solution habituelle!

InformationsquelleAutor evilone

Si vous êtes à la recherche pour plus de méthode générique:

public static List<U> FindDuplicates<T, U>(this List<T> list, Func<T, U> keySelector)
    {
        return list.GroupBy(keySelector)
            .Where(group => group.Count() > 1)
            .Select(group => group.Key).ToList();
    }

EDIT: Voici un exemple:

public class Person {
    public string Name {get;set;}
    public int Age {get;set;}
}

List<Person> list = new List<Person>() { new Person() { Name = "John", Age = 22 }, new Person() { Name = "John", Age = 30 }, new Person() { Name = "Jack", Age = 30 } };

var duplicateNames = list.FindDuplicates(p => p.Name);
var duplicateAges = list.FindDuplicates(p => p.Age);

foreach(var dupName in duplicateNames) {
    Console.WriteLine(dupName); //Will print out John
}

foreach(var dupAge in duplicateAges) {
    Console.WriteLine(dupAge); //Will print out 30
}

InformationsquelleAutor Mauricio Ramalho

5

À l'aide de LINQ, bien sûr.
Le code ci-dessous vous donnent dictionnaire de l'article comme une chaîne de caractères et le nombre de chaque élément dans votre sourc liste.
```
var item2ItemCount = list.GroupBy(item => item).ToDictionary(x=>x.Key,x=>x.Count());
```
InformationsquelleAutor Manish Basantani

Je suis en supposant que chaque chaîne dans votre liste contient plusieurs mots, laissez-moi savoir si c'est incorrect.

List<string> list = File.RealAllLines("foobar.txt").ToList();

var words = from line in list
            from word in line.Split(new[] { ' ', ';', ',', '.', ':', '(', ')' }, StringSplitOptions.RemoveEmptyEntries)
            select word;

var duplicateWords = from w in words
                     group w by w.ToLower() into g
                     where g.Count() > 1
                     select new
                     {
                         Word = g.Key,
                         Count = g.Count()
                     }

InformationsquelleAutor Thomas Levesque

Pour ce que ça vaut, ici, c'est ma façon:

List<string> list = new List<string>(new string[] { "cat", "Dog", "parrot", "dog", "parrot", "goat", "parrot", "horse", "goat" });
Dictionary<string, int> wordCount = new Dictionary<string, int>();

//count them all:
list.ForEach(word =>
{
    string key = word.ToLower();
    if (!wordCount.ContainsKey(key))
        wordCount.Add(key, 0);
    wordCount[key]++;
});

//remove words appearing only once:
wordCount.Keys.ToList().FindAll(word => wordCount[word] == 1).ForEach(key => wordCount.Remove(key));

Console.WriteLine(string.Format("Found {0} duplicates in the list:", wordCount.Count));
wordCount.Keys.ToList().ForEach(key => Console.WriteLine(string.Format("{0} appears {1} times", key, wordCount[key])));

InformationsquelleAutor Shadow Wizard

    lblrepeated.Text = ""; 
string value = txtInput.Text;
char[] arr = value.ToCharArray();
char[] crr=new char[1];        
int count1 = 0;        
for (int i = 0; i < arr.Length; i++)
{
int count = 0;  
char letter=arr[i];
for (int j = 0; j < arr.Length; j++)
{
char letter3 = arr[j];
if (letter == letter3)
{
count++;
}                    
}
if (count1 < count)
{
Array.Resize<char>(ref crr,0);
int count2 = 0;
for(int l = 0;l < crr.Length;l++)
{
if (crr[l] == letter)
count2++;                    
}
if (count2 == 0)
{
Array.Resize<char>(ref crr, crr.Length + 1);
crr[crr.Length-1] = letter;
}
count1 = count;               
}
else if (count1 == count)
{
int count2 = 0;
for (int l = 0; l < crr.Length; l++)
{
if (crr[l] == letter)
count2++;
}
if (count2 == 0)
{
Array.Resize<char>(ref crr, crr.Length + 1);
crr[crr.Length - 1] = letter;
}
count1 = count; 
}
}
for (int k = 0; k < crr.Length; k++)
lblrepeated.Text = lblrepeated.Text + crr[k] + count1.ToString();

Puis-je avoir quelques spaghetti ainsi?

InformationsquelleAutor kittu

J'utilise une méthode similaire pour vérifier dupliqué entrys dans une chaîne de caractères:

public static IEnumerable<string> CheckForDuplicated(IEnumerable<string> listString)
{
List<string> duplicateKeys = new List<string>();
List<string> notDuplicateKeys = new List<string>();
foreach (var text in listString)
{
if (notDuplicateKeys.Contains(text))
{
duplicateKeys.Add(text);
}
else
{
notDuplicateKeys.Add(text);
}
}
return duplicateKeys;
}

C'est peut-être pas le plus court-circuit ou de manière élégante, mais je pense que c'est très lisible.

InformationsquelleAutor George Wurthmann

Vous devez vous connecter pour publier un commentaire.