Pourquoi ne HashSet mise en œuvre dans Sun Java utiliser HashMap que sa sauvegarde?

En regardant la source de Java 6, HashSet<E> est réellement mis en œuvre à l'aide de HashMap<E,Object>, à l'aide de mannequin instance d'objet sur chaque entrée de l'Ensemble.

Je pense que les déchets 4 octets (sur les machines 32 bits) pour la taille de l'entrée elle-même.

Mais, pourquoi est-il encore utilisé? Est-il une raison pour l'utiliser en plus de rendre plus facile à maintenir les codes?

le niveau de déchets en Java par défaut des collections est aberrant. Le pire des délinquants qui se passe quand vous manipulez des primitives. Vous pensez qu'un HashSet<Object> qui est mauvais? Pas de penser à ce sujet: HashMap<Integer,Integer>. Si vous êtes après, efficace collections que vous voulez regarder Trésor (pour les primitives) ou Javolution (en temps réel). Ils tournent tous deux autour de cercles de Java par défaut collections, à la fois la performance et la mémoire sage. Nous faisons de lourds calculs et des collections avec des millions d'éléments sont communs pour nous. Mine de roches. Javolution rochers. La valeur par défaut de Java collections n'ont tout simplement pas le couper.
pour continuer sur mon commentaire... Ce que je veux dire, c'est: soit perfs et de la mémoire de la matière et ensuite, vous devez trouver une autre alternative, car le niveau de déchets en Java par défaut des collections est trop élevée ou que vous n'avez pas besoin de perfs et de la mémoire n'a pas d'importance, parce que vous allez être à l'aide de minuscules nombre d'éléments et la valeur par défaut de Java collections sont ok (dur il y a probablement une meilleure solution alternative comme le Google collections etc.)
c'est beaucoup de déclarations audacieuses avec peu de preuves pour les sauvegarder.
HashMap ne permet pas de doubles de clés donc à l'aide d'une table de hachage pour mettre en œuvre un ensemble est une bonne idée. Ils auraient voulu réutiliser le code existant de table de hachage.

InformationsquelleAutor Randy Sugianto 'Yuku' | 2010-02-10

20

En fait, ce n'est pas seulement HashSet. Tous les implémentations de la Set interface en Java 6 sont basés sur un sous-jacent Map. Ce n'est pas une obligation, c'est juste la manière dont l'application est. Vous pouvez voir par vous-même en consultant la documentation pour les diverses implémentations de Set.

Vos principales questions sont

Mais, pourquoi est-il encore utilisé? Est-il
aucune raison pour l'utiliser en plus de rendre
plus facile à maintenir les codes?

Je suppose que le code de la maintenance est un grand facteur de motivation. Donc est d'empêcher la duplication et le ballonnement.

Set et Map sont similaires interfaces, en ce que les éléments en double ne sont pas autorisés. (Je pense que la seule Set pas soutenu par une Map est CopyOnWriteArraySet, qui est une étonnante Collection, parce qu'il est immuable.)

Spécifiquement:

De la la documentation de Set:

Une collection qui ne contient pas de
les éléments en double. Plus formellement,
les ensembles contiennent pas de paire d'éléments e1
et e2 tels que e1.equals(e2), et à
plus un élément de valeur null. Comme le sous-entend
son nom, cette interface les modèles de la
ensemble mathématique de l'abstraction.

L'Ensemble de l'interface de places supplémentaires
stipulations, au-delà de celles héritées
à partir de l'interface de Collecte, sur le
les contrats de tous les constructeurs et sur
les contrats de l'ajouter, d'égal à égal et
les méthodes hashCode. Déclarations pour
d'autres les méthodes héritées sont également
inclus ici pour plus de commodité. (Le
spécifications de l'accompagnement de ces
des déclarations ont été adaptées à la
L'interface, mais ils ne contiennent pas de
supplémentaires stipulations.)

La disposition additionnelle sur
les constructeurs est, il n'est pas surprenant,
que tous les constructeurs doivent créer un
ensemble qui ne contient pas de doublons
éléments (tel que défini ci-dessus).

Et de Map:

Un objet que les cartes des clés à des valeurs.
Une carte ne peut pas contenir des doubles de clés; chaque clé peut correspondre à au plus une valeur.

Si vous pouvez mettre en œuvre votre Sets à l'aide du code existant, tout avantage (vitesse, par exemple), vous pouvez réaliser à partir d'un code existant revient à votre Set ainsi.

Si vous choisissez de mettre en œuvre un Set sans Map la sauvegarde, vous devez dupliquer du code conçu pour empêcher les éléments en double. Ah, la délicieuse ironie.

Cela dit, rien ne vous empêche de mise en œuvre de votre Sets différemment.
- "Toutes les implémentations de la Set interface en Java 6 sont basés sur un sous-jacent Collection." (Je suppose que vous voulez dire Map au lieu de Collection.) Il existe au moins un contre-exemple (autres que les sous-ensembles et autres). EnumSet n'est pas basé sur un Map.
- Il y a encore une possibilité: il peut avoir été mis en œuvre en tant que Map<T, T> au lieu de Map<Objet> et de fournir un get(T) pour libérer au moins pour HashSet (et éventuellement TreeSet), similaire à ce que le C++ offre. Il serait probablement conduire à une certaine hacky usages (je ne peut pas venir avec une pièce de théâtre nettoyer un actuellement de toute façon), mais maintenant, et puis il peut obtenir des trucs fait.
InformationsquelleAutor JXG
4

Je devine qu'il n'a jamais tourné comme un problème important pour les applications réelles ou des points de repère importants. Pourquoi compliquer le code pour aucun avantage réel?

Est aussi à noter que l'objet tailles sont arrondis dans de nombreux JVM mise en œuvre, de sorte qu'il peut ne pas être en fait une augmentation de la taille (je ne sais pas pour cet exemple). Le code de HashMap est susceptible d'être compilé et dans le cache. Autres choses étant égales par ailleurs, plus de code => plus de défauts de cache => une baisse des performances.

InformationsquelleAutor Tom Hawtin - tackline
4

Ma conjecture est que HashSet a été initialement mis en œuvre en termes de table de hachage afin de le faire rapidement et facilement. En termes de lignes de code, HashSet est une fraction de la table de hachage.

Je suppose que la raison pour laquelle il n'a pas encore été optimisé, c'est la peur du changement.

Toutefois, les déchets sont bien pire que vous le pensez. Sur les versions 32-bit et 64-bit, HashSet est 4x plus grande que nécessaire, et HashMap est 2x plus grande que nécessaire. HashMap pourraient être mises en œuvre avec un tableau avec les clés et les valeurs qu'il contient (en plus de chaînes pour les collisions). Cela signifie que deux pointeurs par entrée, ou 16 octets sur une version 64 bits de VM. En fait, la table de hachage contient une Entrée par entrée, qui ajoute 8 octets pour le pointeur à l'Entrée et 8 octets pour l'Entrée d'en-tête objet. HashSet utilise également 32 octets par élément, mais les déchets est de 4x au lieu de 2x, car il ne nécessite 8 octets par élément.
- Dans la JVM HotSpot, un objet d'en-tête se compose de deux mots, si une entrée de la table de hachage avec un pointeur pour la key, value, et un next entrée pour la gestion des collisions a cinq fois plus d'espace par rapport à une référence unique dans un tableau plat (quand on compare avec un possible Set mise en œuvre). Mais il y a encore un tableau à l'intérieur de HashMap trop, le tableau de références à Entry instances. Donc en fin de compte, la HashMap en fonction HashSet prend environ six fois en l'espace d'un tableau plat à base HashSet. Sur une version 64 bits de la JVM HotSpot avec CompressedOOPs et CompressedKlassPointers activé, c'est même 6,5 fois...
- Tous les concurrents, Eclipse Collections, Fastutils, Mine, etc. parvenir à un 4x amélioration.
- C'est une instruction vide, sans aucune mention des numéros de version et en particulier, la configuration de la JVM. OpenJDK est mise en œuvre a changé au fil du temps, plus particulièrement, les versions récentes de soutien à une structure d'arbre pour gérer les collisions, ce qui soulève la consommation de mémoire encore plus, quand il arrive. De plus, mon commentaire précédent déjà expliqué qu'il y a une dépendance à la JVM de l'architecture et de la configuration quand il s'agit de l'objet de frais généraux. Bien sûr, les autres implémentations avoir recours à des objets aussi bien pour les collisions.Les auteurs ont sans doute été un euphémisme pour esquivé ces subtilités
- Je suis l'un des auteurs. Ce n'est pas un euphémisme. 4x. Toutes les bibliothèques, toutes les versions. C'est la même réponse pour les+ de 10 ans.
- Eh bien, dans ce cas, vous avez évidemment ignoré le fait que le JRE de mise en œuvre de HashMap changé de manière significative au cours de la dernière décennie. Et je ne comprends pas pourquoi vous insistez de manière agressive sur le rejet de la possibilité que l'amélioration peut être même mieux dans certains scénarios. C'est que “4x.” une libération conditionnelle donnée par la sainte dictateur qui l'emporte sur toutes les techniques de discussion ou quoi?
- Nous avons des tests pour mesurer l'utilisation de la mémoire. Java 8 a eu des changements importants à la mise en œuvre, qui avaient toutes sortes d'impact, mais pas à l'utilisation de la mémoire, sauf dans le cas limite où tous les collisions aller dans le même seau.
- Que “dans le cas limite où tous les collisions aller dans le même seau”, il fait une différence? Mais, 10% des collisions ou 90% des collisions, un facteur de charge de 0,1 0,9, JVM 32 bits ou 64 bits de la JVM, un millier d'éléments, un million d'éléments ou d'un milliard d'éléments, que tous n'a pas d'importance, c'est toujours “4x. Toutes les bibliothèques, toutes les versions.”? Eh bien, alors cela ne suggère qu'il y a encore de la place pour l'amélioration.
InformationsquelleAutor Craig P. Motlin
3

Oui, vous avez raison, une petite quantité de gaspillage est definetley là. Petite parce que, pour chaque entrée, il utilise le même objet PRESENT(qui est déclarée final). Par conséquent, la seule gaspillage est pour chaque entrée de la valeur dans la table de hachage.

Surtout, je pense, ils ont adopté cette approche pour la maintenabilité et la réutilisabilité. (Le JCF les développeurs ont pensé, nous avons testé HashMap de toute façon, pourquoi ne pas réutiliser.)

Mais si vous avez de grandes collections, et vous êtes un mémoire freak, alors vous pouvez opter pour les meilleures solutions de rechange comme Trove ou Google Collections.
- De déchets supplémentaire est d'avoir à stocker une référence à la clé, qui peut être grande si vous avez des millions d'entrées dans le jeu. 8bytes * 1M objets = 8 MO de déchets
InformationsquelleAutor Suraj Chandran
3

J'ai regardé votre question et il m'a fallu un peu de temps pour réfléchir sur ce que vous avez dit. Voici donc mon avis sur le HashSet mise en œuvre.

Il est nécessaire d'avoir le mannequin exemple pour savoir si la valeur est ou n'est pas présent dans le jeu.

Prendre un coup d'oeil à la méthode add
```
public boolean add(E e) {
return map.put(e, PRESENT)==null;
}
```
Abd maintenant, nous allons jeter un oeil à le mettre valeur de retour

@retourne la valeur associée à la clé, ou null si il n'y avait pas de cartographie pour la clé. (Un retour null peut également indiquer que la carte précédemment associés nul à la clé).

De sorte que le PRESENT objet est utilisée pour représenter l'ensemble contient la valeur de e. Je pense que vous avez demandé pourquoi ne pas utiliser null au lieu de PRESENT. Mais la, vous ne seriez pas en mesure de distinguer si l'entrée était déjà sur la carte parce que map.put(key,value) serait toujours revenir null et vous n'auriez pas moyen de savoir si la clé existe.

Cela étant dit, on pourrait dire qu'ils auraient pu utiliser une application comme ceci
```
   public boolean add(E e) {

        if( map.containsKey(e) ) {
            return false;
        }

        map.put(e, null);

        return true;

}
```
Je suppose qu'ils déchets 4 octets pour éviter le calcul de la hashCode, comme il pourrait l'être cher, de la clé deux fois (si la clé va être ajoutée).

Si vous la question de pourquoi ils ont utilisé un HashMap qui feraient perdre 8 octets (en raison de la Map.Entry) à la place d'une autre structure de données à l'aide d'une Entrée similaire de seulement 4, alors oui, je dirais qu'ils l'ont fait pour les raisons que vous avez mentionnées.

InformationsquelleAutor Lombo
0

Après la recherche par le biais des pages comme ça vous vous demandez pourquoi le légèrement inefficace standard de mise en œuvre, trouve com.carrotsearch.des professions.IntOpenHashSet

InformationsquelleAutor clwhisk
-3

Votre question:
Je pense que les déchets 4 octets (sur les machines 32 bits) pour la taille de l'entrée elle-même.

Juste une variable Objet est créé pour l'ensemble de la discbased de hashset et de faire qui permettrait de sauver de la ré-écriture de l'ensemble de la table de hachage type de code à nouveau.

private static final Object PRESENT = new Object();

Toutes les touches sont ayant une valeur que j'ai.e objet.
- Le gaspillage de l'espace est dans le champ supplémentaire utilisé pour tenir la redondant value champ pour toutes les entrées dans la HashSet.
- et dans l'existence d'une entrée de l'objet dans la première place.
InformationsquelleAutor Srujan Kumar Gulla

Vous devez vous connecter pour publier un commentaire.