Est un unordered_map vraiment plus rapide qu'une carte dans la pratique?

Sûr, la recherche de la performance d'une unordered_map est constante en moyenne, et la recherche de la performance d'une carte est O(logN).

Mais bien sûr dans le but de trouver un objet dans une unordered_map, nous avons:

de hachage de la clé que nous voulons trouver.
equality_compare la clé avec toutes les clés dans le même seau.

Alors que dans une carte, nous avons simplement besoin de less_than comparer les recherchés clé avec log2(N) touches, où N est le nombre d'éléments dans la carte.

Je me demandais ce que la performance réelle différence serait, étant donné que la fonction de hachage ajoute-dessus et un equality_compare est pas moins cher qu'un less_than comparer.

Plutôt que de déranger la communauté avec une question, je peux répondre moi-même, j'ai écrit un test.

J'ai partagé les résultats ci-dessous, au cas où quelqu'un d'autre trouve cela intéressant ou utile.

Plus de réponses sont bien sûr invités si quelqu'un est capable et disposé à ajouter plus d'informations.

Le problème avec map n'est pas le log N en soi; c'est que chaque accès à la mémoire que vous marchez dans l'arbre est essentiellement aléatoire. Ce n'est pas important quand la carte est petite, mais elle domine lorsque la carte est grande. (La différence entre l'accès cache et de la mémoire est un ordre de grandeur ou deux; voir par exemple stackoverflow.com/q/4087280. Et cette différence tend à augmenter à travers le CPU générations parce que le physique est local.) Le égal à/inférieur à opérations sont invisibles par rapport au pointeur de la poursuite.
Jetez un oeil à mes résultats de tests, en particulier la flat_map vs carte. Il semble à première vue que le pointeur de chasser est de la comptabilité pour un doublement de la recherche du temps dans une carte par rapport à un (grand!) triés vecteur. Cependant, il peut y avoir d'autres facteurs en jeu ici. clang semble plus disposé aux commandes de l'ensemble de la recherche pour lower_bound sur un vecteur, que at pour une carte, par exemple.

OriginalL'auteur Richard Hodges | 2016-04-03

c++dictionary performance unordered-map

En réponse à des questions au sujet de la performance en ce qui concerne le nombre de raté recherches, j'ai refait le test pour la paramétrer.

Exemple de résultats:

searches=1000000 set_size=      0 miss=    100% ordered=   4384 unordered=  12901 flat_map=    681
searches=1000000 set_size=     99 miss=  99.99% ordered=  89127 unordered=  42615 flat_map=  86091
searches=1000000 set_size=    172 miss=  99.98% ordered= 101283 unordered=  53468 flat_map=  96008
searches=1000000 set_size=    303 miss=  99.97% ordered= 112747 unordered=  53211 flat_map= 107343
searches=1000000 set_size=    396 miss=  99.96% ordered= 124179 unordered=  59655 flat_map= 112687
searches=1000000 set_size=    523 miss=  99.95% ordered= 132180 unordered=  51133 flat_map= 121669
searches=1000000 set_size=    599 miss=  99.94% ordered= 135850 unordered=  55078 flat_map= 121072
searches=1000000 set_size=    695 miss=  99.93% ordered= 140204 unordered=  60087 flat_map= 124961
searches=1000000 set_size=    795 miss=  99.92% ordered= 146071 unordered=  64790 flat_map= 127873
searches=1000000 set_size=    916 miss=  99.91% ordered= 154461 unordered=  50944 flat_map= 133194
searches=1000000 set_size=    988 miss=   99.9% ordered= 156327 unordered=  54094 flat_map= 134288

Clés:

searches = number of searches performed against each map
set_size = how big each map is (and therefore how many of the searches will result in a hit)
miss = the probability of generating a missed search. Used for generating searches and set_size.
ordered = the time spent searching the ordered map
unordered = the time spent searching the unordered_map
flat_map = the time spent searching the flat map

note: time is measured in std::system_clock::duration ticks.

TL;DR

Résultats: unordered_map montre sa supériorité dès qu'il y a des données dans la carte. Le seul moment où il présente de moins bonnes performances que la commande de la carte, c'est quand les cartes sont vides.

Voici le nouveau code:

#include <iostream>
#include <iomanip>
#include <random>
#include <algorithm>
#include <string>
#include <vector>
#include <map>
#include <unordered_map>
#include <unordered_set>
#include <chrono>
#include <tuple>
#include <future>
#include <stdexcept>
#include <sstream>
using namespace std;
//this sets the length of the string we will be using as a key.
//modify this to test whether key complexity changes the performance ratios
//of the various maps
static const size_t key_length = 20;
//the number of keys we will generate (the size of the test)
const size_t nkeys = 1000000;
//use a virtual method to prevent the optimiser from detecting that
//our sink function actually does nothing. otherwise it might skew the test
struct string_user
{
virtual void sink(const std::string&) = 0;
virtual ~string_user() = default;
};
struct real_string_user : string_user
{
virtual void sink(const std::string&) override
{
}
};
struct real_string_user_print : string_user
{
virtual void sink(const std::string& s) override
{
cout << s << endl;
}
};
//generate a sink from a string - this is a runtime operation and therefore
//prevents the optimiser from realising that the sink does nothing
std::unique_ptr<string_user> make_sink(const std::string& name)
{
if (name == "print")
{
return make_unique<real_string_user_print>();
}
if (name == "noprint")
{
return make_unique<real_string_user>();
}
throw logic_error(name);
}
//generate a random key, given a random engine and a distribution
auto gen_string = [](auto& engine, auto& dist)
{
std::string result(key_length, ' ');
generate(begin(result), end(result), [&] {
return dist(engine);
});
return result;
};
//comparison predicate for our flat map.
struct pair_less
{
bool operator()(const pair<string, string>& l, const string& r) const {
return l.first < r;
}
bool operator()(const string& l, const pair<string, string>& r) const {
return l < r.first;
}
};
template<class F>
auto time_test(F&& f, const vector<string> keys)
{
auto start_time = chrono::system_clock::now();
for (auto const& key : keys)
{
f(key);
}
auto stop_time = chrono::system_clock::now();
auto diff =  stop_time - start_time;
return diff;
}
struct report_key
{
size_t nkeys;
int miss_chance;
};
std::ostream& operator<<(std::ostream& os, const report_key& key)
{
return os << "miss=" << setw(2) << key.miss_chance << "%";
}
void run_test(string_user& sink, size_t nkeys, double miss_prob)
{
//the types of map we will test
unordered_map<string, string> unordered;
map<string, string> ordered;
vector<pair<string, string>> flat_map;
//a vector of all keys, which we can shuffle in order to randomise
//access order of all our maps consistently
vector<string> keys;
unordered_set<string> keys_record;
//generate keys
auto eng = std::default_random_engine(std::random_device()());
auto alpha_dist = std::uniform_int_distribution<char>('A', 'Z');
auto prob_dist = std::uniform_real_distribution<double>(0, 1.0 - std::numeric_limits<double>::epsilon());
auto generate_new_key = [&] {
while(true) {
//generate a key
auto key = gen_string(eng, alpha_dist);
//try to store it in the unordered map
//if it already exists, force a regeneration
//otherwise also store it in the ordered map and the flat map
if(keys_record.insert(key).second) {
return key;
}
}
};
for (size_t i = 0 ; i < nkeys ; ++i)
{
bool inserted = false;
auto value = to_string(i);
auto key = generate_new_key();
if (prob_dist(eng) >= miss_prob) {
unordered.emplace(key, value);
flat_map.emplace_back(key, value);
ordered.emplace(key, std::move(value));
}
//record the key for later use
keys.emplace_back(std::move(key));
}
//turn our vector 'flat map' into an actual flat map by sorting it by pair.first. This is the key.
sort(begin(flat_map), end(flat_map),
[](const auto& l, const auto& r) { return l.first < r.first; });
//shuffle the keys to randomise access order
shuffle(begin(keys), end(keys), eng);
auto unordered_lookup = [&](auto& key) {
auto i = unordered.find(key);
if (i != end(unordered)) {
sink.sink(i->second);
}
};
auto ordered_lookup = [&](auto& key) {
auto i = ordered.find(key);
if (i != end(ordered)) {
sink.sink(i->second);
}
};
auto flat_map_lookup = [&](auto& key) {
auto i = lower_bound(begin(flat_map),
end(flat_map),
key,
pair_less());
if (i != end(flat_map) && i->first == key) {
sink.sink(i->second);
}
};
//spawn a thread to time access to the unordered map
auto unordered_future = async(launch::async,
[&]()
{
return time_test(unordered_lookup, keys);
});
//spawn a thread to time access to the ordered map
auto ordered_future = async(launch::async, [&]
{
return time_test(ordered_lookup, keys);
});
//spawn a thread to time access to the flat map
auto flat_future = async(launch::async, [&]
{
return time_test(flat_map_lookup, keys);
});
//synchronise all the threads and get the timings
auto ordered_time = ordered_future.get();
auto unordered_time = unordered_future.get();
auto flat_time = flat_future.get();
cout << "searches=" << setw(7) << nkeys;
cout << " set_size=" << setw(7) << unordered.size();
cout << " miss=" << setw(7) << setprecision(6) << miss_prob * 100.0 << "%";
cout << " ordered=" << setw(7) << ordered_time.count();
cout << " unordered=" << setw(7) << unordered_time.count();
cout << " flat_map=" << setw(7) << flat_time.count() << endl;
}
int main()
{
//generate the sink, preventing the optimiser from realising what it
//does.
stringstream ss;
ss << "noprint";
string arg;
ss >> arg;
auto puser = make_sink(arg);
for (double chance = 1.0 ; chance >= 0.0 ; chance -= 0.0001)
{
run_test(*puser, 1000000, chance);
}
return 0;
}

OriginalL'auteur Richard Hodges

Dans ce test suivant, j'ai compilé sur apple clang avec-O3, j'ai pris des mesures pour s'assurer que le test est juste, comme:

appeler un évier en fonction du résultat de chaque recherche par le biais d'un vtable, pour empêcher l'utilisation de l'optimiseur de inline loin ensemble des recherches!
exécuter des tests sur 3 différents types de cartes, contenant les mêmes données, dans le même ordre en parallèle. Cela signifie que si un test commence à "prendre de l'avance", il commence à entrer cache-miss territoire pour la recherche (voir le code). Cela signifie que pas de test obtient un avantage injuste d'être confronté à une " hot " de la cache.
paramétrer la taille de la clé (et donc de la complexité)
de paramétrer la taille de la carte
testé trois différents types de cartes (contenant les mêmes données) - un unordered_map, une carte et une triés vecteur de paires clé/valeur.
vérifié l'assembleur de sortie pour s'assurer que l'optimiseur n'a pas été en mesure d'optimiser loin ensemble des morceaux de la logique due à la mort d'analyse de code.

Voici le code:

#include <iostream>
#include <random>
#include <algorithm>
#include <string>
#include <vector>
#include <map>
#include <unordered_map>
#include <chrono>
#include <tuple>
#include <future>
#include <stdexcept>
#include <sstream>
using namespace std;
//this sets the length of the string we will be using as a key.
//modify this to test whether key complexity changes the performance ratios
//of the various maps
static const size_t key_length = 20;
//the number of keys we will generate (the size of the test)
const size_t nkeys = 1000000;
//the types of map we will test
unordered_map<string, string> unordered;
map<string, string> ordered;
vector<pair<string, string>> flat_map;
//a vector of all keys, which we can shuffle in order to randomise
//access order of all our maps consistently
vector<string> keys;
//use a virtual method to prevent the optimiser from detecting that
//our sink function actually does nothing. otherwise it might skew the test
struct string_user
{
virtual void sink(const std::string&) = 0;
virtual ~string_user() = default;
};
struct real_string_user : string_user
{
virtual void sink(const std::string&) override
{
}
};
struct real_string_user_print : string_user
{
virtual void sink(const std::string& s) override
{
cout << s << endl;
}
};
//generate a sink from a string - this is a runtime operation and therefore
//prevents the optimiser from realising that the sink does nothing
std::unique_ptr<string_user> make_sink(const std::string& name)
{
if (name == "print")
{
return make_unique<real_string_user_print>();
}
if (name == "noprint")
{
return make_unique<real_string_user>();
}
throw logic_error(name);
}
//generate a random key, given a random engine and a distribution
auto gen_string = [](auto& engine, auto& dist)
{
std::string result(key_length, ' ');
generate(begin(result), end(result), [&] {
return dist(engine);
});
return result;
};
//comparison predicate for our flat map.
struct pair_less
{
bool operator()(const pair<string, string>& l, const string& r) const {
return l.first < r;
}
bool operator()(const string& l, const pair<string, string>& r) const {
return l < r.first;
}
};
int main()
{
//generate the sink, preventing the optimiser from realising what it
//does.
stringstream ss;
ss << "noprint";
string arg;
ss >> arg;
auto puser = make_sink(arg);
//generate keys
auto eng = std::default_random_engine(std::random_device()());
auto alpha_dist = std::uniform_int_distribution<char>('A', 'Z');
for (size_t i = 0 ; i < nkeys ; ++i)
{
bool inserted = false;
auto value = to_string(i);
while(!inserted) {
//generate a key
auto key = gen_string(eng, alpha_dist);
//try to store it in the unordered map
//if it already exists, force a regeneration
//otherwise also store it in the ordered map and the flat map
tie(ignore, inserted) = unordered.emplace(key, value);
if (inserted) {
flat_map.emplace_back(key, value);
ordered.emplace(key, std::move(value));
//record the key for later use
keys.emplace_back(std::move(key));
}
}
}
//turn our vector 'flat map' into an actual flat map by sorting it by pair.first. This is the key.
sort(begin(flat_map), end(flat_map),
[](const auto& l, const auto& r) { return l.first < r.first; });
//shuffle the keys to randomise access order
shuffle(begin(keys), end(keys), eng);
//spawn a thread to time access to the unordered map
auto unordered_future = async(launch::async, [&]()
{
auto start_time = chrono::system_clock::now();
for (auto const& key : keys)
{
puser->sink(unordered.at(key));
}
auto stop_time = chrono::system_clock::now();
auto diff =  stop_time - start_time;
return diff;
});
//spawn a thread to time access to the ordered map
auto ordered_future = async(launch::async, [&]
{
auto start_time = chrono::system_clock::now();
for (auto const& key : keys)
{
puser->sink(ordered.at(key));
}
auto stop_time = chrono::system_clock::now();
auto diff =  stop_time - start_time;
return diff;
});
//spawn a thread to time access to the flat map
auto flat_future = async(launch::async, [&]
{
auto start_time = chrono::system_clock::now();
for (auto const& key : keys)
{
auto i = lower_bound(begin(flat_map),
end(flat_map),
key,
pair_less());
if (i != end(flat_map) && i->first == key)
puser->sink(i->second);
else
throw invalid_argument(key);
}
auto stop_time = chrono::system_clock::now();
auto diff =  stop_time - start_time;
return diff;
});
//synchronise all the threads and get the timings
auto ordered_time = ordered_future.get();
auto unordered_time = unordered_future.get();
auto flat_time = flat_future.get();
//print
cout << "  ordered time: " << ordered_time.count() << endl;
cout << "unordered time: " << unordered_time.count() << endl;
cout << " flat map time: " << flat_time.count() << endl;
return 0;
}

Résultats:

  ordered time: 972711
unordered time: 335821
flat map time: 559768

Comme vous pouvez le voir, le unordered_map de manière convaincante bat la carte et la paire triée vecteur. Le vecteur de paires a deux fois plus rapide que la solution map. C'est intéressant comme lower_bound et map::ont presque l'équivalent de la complexité.

TL;DR

dans ce test, le non-ordonnée de la carte est environ 3 fois plus rapide (pour les recherches) comme un ensemble ordonné de la carte, et un vecteur trié de manière convaincante beats une carte.

En fait j'ai été choqué de voir comment beaucoup plus rapide, il est.

Puisque vous avez pris la peine de paramétrer la taille, il pourrait être une bonne idée de mettre vos résultats dans un tableau avec des colonnes pour les différentes tailles. Ce qui devrait révéler un rude seuil du point où l'augmentation de frais généraux de unordered_map sont remplacées par la diminution de l'Ordre de Complexité.
Je fais référence à la modification de la valeur de nkeys.
Il semble que vos "planisphère" test fait recherche à la fois le vecteur trié et la commande de la carte. Je suis donc un peu surpris de voir que cela a le même calendrier. En fait - qui pourrait avoir à faire avec l'exécution de tests en même temps. Je serais personnellement sentirez mieux si les tests n'ont pas été exécutés simultanément afin d'éliminer la contention comme un facteur, Également, le plat de test de la carte ne devrait pas faire n'importe quoi avec la ordered objet (sauf si je suis malentendu quelque chose).
re: "le test est tellement rapide qu'il est incommensurable" Le point de l'ensemble de l'examen des ordres de complexité est de comprendre les implications de performances pour différentes valeurs de N. En particulier, l'avantage de la réduction des ordres de complexité, c'est que peu importe comment grand les constant, les frais généraux peuvent être, il y aura un seuil de valeur de N à partir de laquelle l'ordre inférieur de la complexité commence à faire mieux. Dans le but de tester avec de faibles valeurs de N, vous devez répéter l'essai un certain nombre de fois afin d'obtenir des résultats mesurables.
PS: Pour l'enregistrement, vous testez un assez spécifique et probablement d'utilisation anormale modèle: Construire une carte et de recherche de chaque entrée exactement une fois zéro raté recherches. En outre, votre timing exclut le temps nécessaire pour créer les cartes.

OriginalL'auteur Richard Hodges

Vous devez vous connecter pour publier un commentaire.