Quel est le moyen le plus rapide pour comparer les deux jeux en Java?

Je suis en train d'essayer d'optimiser un morceau de code qui compare les éléments de la liste.

Par exemple.

public void compare(Set<Record> firstSet, Set<Record> secondSet){
    for(Record firstRecord : firstSet){
        for(Record secondRecord : secondSet){
            //comparing logic
        }
    }
}

Veuillez prendre en compte que le nombre d'enregistrements dans des ensembles sera élevé.

Grâce

Shekhar

Il n'est pas possible d'optimiser les boucles sans le savoir (et de modifier) la comparaison de la logique. Pourriez-vous montrer plus de votre code?

InformationsquelleAutor Shekhar | 2010-07-27

144
```
firstSet.equals(secondSet)
```
Cela dépend vraiment de ce que vous voulez faire dans la logique de comparaison... c'est à dire ce qui se passe si vous trouvez un élément dans un ensemble pas dans l'autre? Votre méthode a un void type de retour donc je suppose que vous allez faire le travail nécessaire à cette méthode.

Contrôle plus fin si vous en avez besoin:
```
if (!firstSet.containsAll(secondSet)) {
  //do something if needs be
}
if (!secondSet.containsAll(firstSet)) {
  //do something if needs be
}
```
Si vous avez besoin d'obtenir les éléments qui sont dans un jeu et pas l'autre.

EDIT: set.removeAll(otherSet) renvoie un booléen, pas un jeu. Pour utiliser removeAll(), vous devrez copier l'ensemble, puis l'utiliser.
```
Set one = new HashSet<>(firstSet);
Set two = new HashSet<>(secondSet);
one.removeAll(secondSet);
two.removeAll(firstSet);
```
Si le contenu de one et two sont tous les deux vides, alors vous savez que les deux ensembles sont égaux. Si non, alors vous avez les éléments qui ont fait le jeux de l'inégalité.

Vous avez mentionné que le nombre de dossiers pourrait être élevé. Si le sous-jacent de la mise en œuvre est un HashSet puis l'extraction de chaque enregistrement est fait dans O(1) temps, de sorte que vous ne pouvez pas vraiment obtenir beaucoup mieux que cela. TreeSet est O(log n).
- La mise en œuvre de equals() et hashcode() pour la classe d'Enregistrement est tout aussi important, lors de l'invocation de equals() sur l'Ensemble.
- Je ne suis pas sûr que le removeAll() exemples sont corrects. removeAll() renvoie un booléen, pas un autre Jeu. Les éléments en secondSet sont réellement supprimé de firstSet et la valeur true est renvoyée si une modification a été apportée.
- Le removeAll exemple encore, c'est pas juste parce que vous n'avez pas fait de copie (Ensemble un = firstSet; de Définir les deux = secondSet). J'aimerais utiliser le constructeur de copie.
- En fait, le défaut de mise en œuvre de equals est plus rapide que les deux appels à containsAll dans le pire des cas; voir ma réponse.
- Vous avez besoin de faire Ensemble un = new HashSet(firstSet), autrement, les articles de firstSet et secondSet sera supprimé.
InformationsquelleAutor Noel M
59

Si vous voulez simplement savoir si les jeux sont l'égalité, la equals méthode sur AbstractSet est mis en œuvre à peu près comme ci-dessous:
```
    public boolean equals(Object o) {
        if (o == this)
            return true;
        if (!(o instanceof Set))
            return false;
        Collection c = (Collection) o;
        if (c.size() != size())
            return false;
        return containsAll(c);
    }
```
Remarque comment il optimise la commune les cas où:
- les deux objets sont les mêmes
- l'autre objet n'est pas un jeu à tous, et
- les deux ensembles de tailles différentes.
Après, containsAll(...) sera de retour false dès qu'il trouve un élément dans l'autre jeu qui n'est pas dans cet ensemble. Mais si tous les éléments sont présents dans les deux ensembles, il aura besoin de tous les tester.

Le pire des cas de la performance, par conséquent, se produit lorsque les deux ensembles sont égaux, mais pas les mêmes objets. Ce coût est généralement O(N) ou O(NlogN) en fonction de la mise en œuvre de this.containsAll(c).

Et vous vous en approchez-à-pire des cas, la performance si les jeux sont grands et ne diffèrent que dans un petit pourcentage des éléments.

Mise à JOUR

Si vous êtes prêt à investir du temps dans un ensemble personnalisé de mise en œuvre, il y a une approche qui peut améliorer la "presque le même cas".

L'idée est que vous avez besoin pour pré-calculer et de mettre en cache une table de hachage pour l'ensemble de sorte que vous pouvez obtenir le jeu actuel de hashcode de la valeur dans O(1). Ensuite, vous pouvez comparer le hashcode pour les deux ensembles comme une accélération.

Comment pourriez-vous mettre en œuvre un hashcode comme ça? Ainsi, si l'ensemble hashcode était:
- zéro pour un ensemble vide, et
- le XOR de tous les élément hashcodes pour un non-vide de sens,
ensuite, vous pouvez à moindre coût mise à jour de l'ensemble de la mise en cache hashcode chaque fois que vous avez ajouté ou supprimé un élément. Dans les deux cas, il vous suffit de XOR de l'élément hashcode avec le jeu actuel hashcode.

Bien sûr, cela suppose que l'élément hashcodes sont stables tandis que les éléments sont membres d'ensembles. Il suppose également que les classes d'éléments hashcode fonction donne une bonne répartition. C'est parce que quand les deux hashcodes sont les mêmes, vous avez encore de revenir à la O(N) comparaison de tous les éléments.

Vous pourriez prendre cette idée un peu plus loin ... du moins en théorie.

AVERTISSEMENT - Ce n'est que spéculation. Une "expérience de pensée" si vous le souhaitez.

Supposons que votre élément de la classe possède une méthode de retour d'un crypto sommes de contrôle pour l'élément. Mettre en œuvre l'ensemble de la somme de contrôle par XORing sommes retournés pour les éléments.

Qu'est-ce nous acheter?

Bien, si nous supposons que rien sournoise qui se passe, la probabilité que deux inégalité de définir les éléments ont le même N bits de sommes est de 2^N. Et la probabilité 2 inégale ensembles ont le même N bits de sommes de contrôle est également 2^N. Donc, mon idée est que vous pouvez mettre en œuvre equals comme:
```
    public boolean equals(Object o) {
        if (o == this)
            return true;
        if (!(o instanceof Set))
            return false;
        Collection c = (Collection) o;
        if (c.size() != size())
            return false;
        return checksums.equals(c.checksums);
    }
```
Sous les hypothèses ci-dessus, cela ne fera que vous donner la mauvaise réponse une fois dans 2^N de temps. Si vous faites N assez grand (par exemple 512 bits), la probabilité d'une mauvaise réponse devient négligeable (par exemple, environ 10^-150).

L'inconvénient est que le calcul de la crypto sommes de contrôle pour les éléments est très cher, surtout que le nombre de bits augmente. Si vous avez vraiment besoin d'un mécanisme efficace pour memoizing les sommes de contrôle. Et qui pourrait être problématique.

Et l'autre inconvénient, c'est qu'une probabilité non nulle d'erreur peut être inacceptable, peu importe comment petit la probabilité est. (Mais si c'est le cas ... comment voulez-vous traiter le cas où un rayon cosmique retourne une critique peu? Ou si c'simultanément retourne les mêmes bits dans les deux cas d'un système redondant?)
- Il doit être si (checksumsDoNotMatch(0)) return false; else return doHeavyComparisonToMakeSureTheSetsreallymatch(o);
- Pas nécessairement. Si la probabilité de deux sommes de contrôle correspondant pour les non-ensembles égaux, est assez petit je pose que vous pouvez sauter la comparaison. Faire le calcul.
InformationsquelleAutor Stephen C

Il y a une méthode dans la Goyave Sets qui peut aider ici:

public static <E>  boolean equals(Set<? extends E> set1, Set<? extends E> set2){
return Sets.symmetricDifference(set1,set2).isEmpty();
}

InformationsquelleAutor husayt

Vous avez la solution suivante de https://www.mkyong.com/java/java-how-to-compare-two-sets/

public static boolean equals(Set<?> set1, Set<?> set2){

    if(set1 == null || set2 ==null){
        return false;
    }

    if(set1.size() != set2.size()){
        return false;
    }

    return set1.containsAll(set2);
}

Ou si vous préférez utiliser une seule instruction return:

public static boolean equals(Set<?> set1, Set<?> set2){

  return set1 != null 
    && set2 != null 
    && set1.size() == set2.size() 
    && set1.containsAll(set2);
}

InformationsquelleAutor ilopezluna

Il y a un O(N) solution pour des cas très spécifiques où:

les décors sont à la fois triés
à la fois triés dans le même ordre

Le code suivant suppose que les deux ensembles sont basés sur les registres comparables. Une méthode similaire pourrait être basé sur un Comparateur.

    public class SortedSetComparitor <Foo extends Comparable<Foo>> 
            implements Comparator<SortedSet<Foo>> {

        @Override
        public int compare( SortedSet<Foo> arg0, SortedSet<Foo> arg1 ) {
            Iterator<Foo> otherRecords = arg1.iterator();
            for (Foo thisRecord : arg0) {
                //Shorter sets sort first.
                if (!otherRecords.hasNext()) return 1;
                int comparison = thisRecord.compareTo(otherRecords.next());
                if (comparison != 0) return comparison;
            }
            //Shorter sets sort first
            if (otherRecords.hasNext()) return -1;
            else return 0;
        }
    }

InformationsquelleAutor Philip Couling

Si vous utilisez Guava bibliothèque, il est possible de faire:

        SetView<Record> added = Sets.difference(secondSet, firstSet);
        SetView<Record> removed = Sets.difference(firstSet, secondSet);

Et ensuite faire une conclusion sur la base de ces.

InformationsquelleAutor riwnodennyk

2

Je mettrais le secondSet dans une table de hachage avant la comparaison. De cette façon, vous réduirez le deuxième de la liste de temps de recherche à n(1). Comme ceci:
```
HashMap<Integer,Record> hm = new HashMap<Integer,Record>(secondSet.size());
int i = 0;
for(Record secondRecord : secondSet){
    hm.put(i,secondRecord);
    i++;
}
for(Record firstRecord : firstSet){
    for(int i=0; i<secondSet.size(); i++){
    //use hm for comparison
    }
}
```
- Ou vous pouvez utiliser un tableau au lieu d'une table de hachage pour la deuxième liste.
- Et, cette solution suppose que les ensembles ne sont pas triés.
InformationsquelleAutor Sahin Habesoglu

public boolean equals(Object o) {
        if (o == this)
            return true;
        if (!(o instanceof Set))
            return false;

        Set<String> a = this;
        Set<String> b = o;
        Set<String> thedifference_a_b = new HashSet<String>(a);


        thedifference_a_b.removeAll(b);
        if(thedifference_a_b.isEmpty() == false) return false;

        Set<String> thedifference_b_a = new HashSet<String>(b);
        thedifference_b_a.removeAll(a);

        if(thedifference_b_a.isEmpty() == false) return false;

        return true;
    }

InformationsquelleAutor Zahran

-1

Je pense que la méthode de référence avec la méthode equals peut être utilisé. Nous supposons que le type d'objet sans l'ombre d'un doute a sa propre méthode de comparaison. La plaine et simple exemple est ici,

Set<String> set = new HashSet<>();
set.addAll(Arrays.asList("leo","bale","hanks"));

Set<String> set2 = new HashSet<>();
set2.addAll(Arrays.asList("hanks","leo","bale"));

Predicate<Set> pred = set::equals;
boolean result = pred.test(set2);
System.out.println(result);   //true

c'est une façon compliquée de dire set.equals(set2)

InformationsquelleAutor snr

Vous devez vous connecter pour publier un commentaire.