Calculer la médiane d'un milliard de chiffres

Si vous avez un milliard de chiffres et de, une centaine d'ordinateurs, quelle est la meilleure façon de localiser la médiane de ces nombres?

Une solution que j'ai est:

Diviser l'ensemble de manière égale entre les ordinateurs.
Les trier.
Trouver les médianes de chaque ensemble.
Trier les jeux sur les médianes.
De fusionner deux ensembles à la fois à partir de la plus faible à la plus forte moyenne.

Si nous avons m1 < m2 < m3 ... puis la première fusion Set1 et Set2 et dans l'ensemble, nous pouvons jeter tous les nombres inférieurs à la médiane de Set12 (fusionné). Donc, à tout point de temps, nous avons l'égalité de taille fixe. En passant, cela ne peut pas être fait en parallèle. Des idées?

sont les milliards de nombres triés?
Boker: en fait, le problème se compose de deux sous-problèmes: 1) trier la liste et 2) obtenir de l'élément d'indice 5'000'000'000. J'ai peine à croire que les chiffres sont triés.
Est-ce devoirs, une question d'entrevue, ou juste de la curiosité?
C'est une question d'entrevue trouvé sur un site
le problème n'a pas besoin composé de deux sous-problèmes que vous décrivez, par exemple quickselect. Mais quickselect n'est pas paralléliser, au moins pas de façon triviale. Et bien sûr, vous avez raison, si les numéros sont pré-triés, c'est une jolie question inutile.
Je ne pense pas qu'un pays de langue anglaise utilise le long milliards de dollars en anglais pour toutes fins officielles. Par exemple, ici au royaume-UNI, nous avons cessé de l'utiliser en 1974. Je considère l'utilisation de "milliards de dollars", au sens d'un million de millions, dans la langue anglaise pour être un pervers de la question de tour, pas un "vrai milliards de dollars" à tous. Des cours de français, ce serait une question totalement différente, mais la question n'est pas en français.
J'ai d'autre part imediatly visualiser un milliard de dollars comme étant un "million" comme vous l'avez dit. Je suis européen, donc je suppose que c'est logique
Oui, si j'étais à parler le français (dont je n'ai pas fait depuis très longtemps, et de mal, même à l'époque), ou de toute autre langue Européenne je ne doute pas faire l'inverse erreur tout le temps, en disant: "milliards de dollars" pour "milliard". Donc sur la deuxième pensées, il n'est pas forcément un truc à utiliser des "milliards de dollars" pour les "millions" en anglais, c'est peut-être difficile à éviter l'erreur de traduction. Ma réaction serait plus adapté dirigé vers les locuteurs de l'anglais tente de revenir à l'époque où nous avons utilisé la "bonne" des milliards et des Britannia a statué sur les vagues 😉
Vous n'avez pas besoin de les trier! en.wikipedia.org/wiki/...
Belle question! Pouvez-vous partager le site où vous avez trouvé la question?
1 milliard de dollars de chiffres n'est qu'à quelques gigaoctets de données, vous n'avez pas besoin de plusieurs Ordinateurs ni des algorithmes complexes pour résoudre cette tâche. Ne pas compliquer.
questions obligatoires: 1) où les nombres sont stockés? 2) définir le "meilleur moyen"
Ca me rappelle un Google les questions de l'entrevue...
cs.stackexchange.com/questions/1914/...
si vous voulez juste pour "localiser" il, de l'utilisation de l'échantillonnage et un ordinateur...
ce type de numéros, cela fait une différence si ces juste des entiers, ou un écorchement numéros .. etc.
Avez-vous considéré l'utilisation de GPU computing? Les gpu sont exceptionnellement bons à faire ce que vous voulez.
Plusieurs machines peuvent communiquer avec un temps de latence faible par rapport à l'échéance prévue, ce qui semble pleurer pour un sur la ligne de l'algorithme: distribuer les données (un sujet à méditer dans son propre droit: imaginez l'entrée "ordonna presque"), des échanges d'après les estimations actuelles (par sous-ensemble/machine), la médiane de chaque maintenant et puis (serait probablement aller pour une séquence de Fibonacci pour l'enfer de celui-ci), il suffit de compter les valeurs aberrantes au risque de devoir recommencer (avec plus de connaissances sur la distribution de la valeur).
Je ne pense pas que c'est vrai. Ce problème a incroyablement faible densité de calcul. Les gpu sont bien à l'opposé de la nature de la tâche.
Si c'était "continental" des milliards (10^12), alors il serait maladroit de les stocker (en supposant que int32 chiffres, ce serait un 4 TO fichier juste pour les chiffres). De toute façon, étant dans le domaine des questions théoriques, cette question devrait être "Comment trouver la médiane d'un ridicule quantité d'articles?(sans tenir compte des détails de bas niveau)"
vous êtes de droite. J'ai oublié le calcul médian eu une forte dépendance de données. Mon mauvais.

InformationsquelleAutor anony | 2010-04-03

algorithm distributed-computing

53

Ah, mon cerveau vient de s'activèrent, j'ai une suggestion sensée maintenant. Probablement trop tard, si cela avait été une entrevue, mais jamais l'esprit:

De la Machine 1 est appelé le "contrôle de la machine", et pour la clarté de l'exposé, soit il commence avec toutes les données, et l'envoie dans l'égalité des colis pour les 99 autres machines, ou, sinon, les données commencent à être réparties entre les machines, et il envoie 1/99 de ses données à chacun des autres. Les partitions n'ont pas à être égaux, il suffit de fermer.

Chaque autre machine trie les données, et le fait d'une manière qui favorise trouver les valeurs plus faibles en premier. Ainsi, par exemple un tri rapide, toujours de tri de la partie inférieure de la partition de la première[*]. Il écrit ses données vers la machine de contrôle dans l'ordre croissant dès qu'il le peut (à l'aide asynchrone IO, de manière à continuer le tri, et probablement avec Nagle sur: expérimenter un peu).

Le contrôle de la machine effectue un 99-voie de fusion sur les données qu'elle arrive, mais supprime les données fusionnées, en gardant juste de compter le nombre de valeurs qu'il a vu. Il calcule la médiane, la moyenne de la 1/2 milliardième et 1/2 milliard de plus oneth valeurs.

Cette souffre de la "plus lente dans le troupeau" problème. L'algorithme ne peut pas complète jusqu'à ce que chaque valeur inférieure à la médiane a été envoyé par une machine de tri. Il y a une chance raisonnable que l'une de ces valeurs sera assez élevé au sein de sa parcelle de données. Donc, une fois le partitionnement des données est terminée, durée estimée est la combinaison du temps de tri 1/99e des données et de l'envoyer à l'ordinateur de contrôle, et le temps pour le contrôle de lire 1/2 les données. La "combinaison" est quelque part entre le maximum et la somme de ces moments, sans doute proche du max.

Mon instinct me dit que pour l'envoi de données sur un réseau pour être plus rapide que le tri (laissez simplement en sélectionnant la médiane), il doit être sacrément rapide du réseau. Peut-être un meilleur prospect si le réseau peut être supposé instantané, par exemple, si vous avez 100 cores avec l'égalité d'accès à la RAM contenant les données.

Depuis le réseau I/O est susceptible d'être la limite, il pourrait y avoir quelques trucs que vous pouvez jouer, au moins pour les données de revenir à la machine de contrôle. Par exemple, au lieu de les envoyer "1,2,3,.. 100", peut-être une machine de tri pourrait envoyer un message signifiant "100 valeurs de moins de 101". Le contrôle de la machine pourrait alors effectuer une modification de la fusion, dans lequel il trouve le moins de tous ceux qui sont haut-de-gamme de valeurs, puis il dit à toutes les machines de tri de ce qu'il était, afin qu'ils puissent (a) indiquer le contrôle de la machine combien de valeurs "compter" en dessous de cette valeur, et (b) la reprise de l'envoi de leurs données triées à partir de ce point.

Plus généralement, il y a probablement un savant défi-réponse de la devinette que le contrôle de la machine peut jouer avec les 99 machines de tri.

Cela implique des allers-retours entre les machines, bien que, qui ma plus simple première version évite. Je ne sais pas vraiment comment l'aveugle-estimation de leurs performances relatives, et, puisque les échanges sont complexes, j'imagine qu'il ya beaucoup de meilleures solutions que rien de ce que je vais penser à moi-même, en supposant que c'est toujours un réel problème.

[*] disponible pile le permet - le choix de la partie à faire en premier est limité si vous n'avez pas de O(N) de l'espace supplémentaire. Mais si vous avez suffisamment d'espace supplémentaire, vous pouvez faire votre choix, et si vous n'avez pas assez d'espace, vous pouvez au moins utiliser ce que vous avez à couper quelques virages, en faisant la petite partie de la première pour la première quelques partitions.
- S'il vous plaît corrigez-moi si je me trompe, pourquoi êtes-vous d'effectuer les 99-voie de fusion sur les données qu'elle arrive seulement à jeter plus tard. Au lieu de cela est-il suffisant pour garder l'compter le nombre qu'il y arrive?
- la répétition de l'étape est de supprimer la valeur la plus petite de toutes, 99 candidats, et incrémenter le compteur. C'est pas de l'utiliser à tout pour simplement garder un décompte de toutes les valeurs entrantes sans cette 99-way étape de fusion et publipostage. Si vous n'avez pas à les comparer, à mesure qu'ils sont, vous ne savez pas que la valeur que vous êtes le rejet est en dessous de la médiane.
- Mais n'est-ce pas là une petite chance que l'un de ces partitions ne contient que des valeurs supérieures à la médiane et par conséquent une baisse de la partition il des rendements supérieurs à la médiane, mais que le contrôle ne sais pas ce qu'il va jeter comme étant inférieurs à la médiane et l'échec...?
- un multi-way merge seuls les rejets de la plus petite des 99 valeurs qu'il a dans la main, chacun de qui est la plus petite valeur restante de l'une des autres machines. Si l'une des partitions est entièrement supérieure à la médiane, alors qu'il ne deviendra pas le moins de ceux des 99 valeurs jusqu'à ce que après la médiane est passé (à quel point nous avons fini). Afin de ne pas être mis au rebut.
InformationsquelleAutor Steve Jessop
51
```
sort -g numbers | head -n 500000001 | tail -n 2 | dc -e "1 k ? ? + 2 /p"
```
- LOL. Le fait vraiment le travail ou l'OOM killer l'anéantir avant qu'il accomplit? (sur n'importe quel raisonnable d'ordinateur)
- Devrait faire. trier sait comment faire un out-of-core de tri, afin de ne pas manquer de mémoire.
- mais combien de temps cela prend-il?...
- Je ne pense pas qu'il serait trop long; un milliard de chiffres n'est que de 4 GO pour la version 32 bits ints/flotteurs, de 8 go pour la version 64 bits ints/doubles. Ni semble extrêmement pénible.
- Pour les points de bonus: utiliser parallel
- Juste essayé sur un processeur Intel i5-4200M @3.1 GHz (4 coeurs). Selon le time de commande appliquée à l'ensemble du pipeline, il a fallu real=36m24s ("horloge murale temps"), user=113m15s (parallèle"le temps", tous les cœurs ajouté). La plus longue de commande, loin devant les autres, était sort, même si elle filetée pour mes quatre cores à 100%. La consommation de RAM est très acceptable.
- 36 minutes c'est énorme, et le problème spécifie il ya 100 ordinateurs, de sorte que toute réponse à l'aide d'un seul ordinateur doit être ignoré
- Ensuite l'exécuter sur 100 ordinateurs, de sorte que vous pouvez être 100 fois plus sûr que le résultat est correct 🙂
- Comment rapide est-il aller si vous utilisez-S sur le tri à utiliser plus de mémoire?
- Le "meilleur", décrit par l'OP semble subjective. 100 ordinateurs est exagéré, même si un seul de ces ordinateurs a la capacité d'un ordinateur portable moderne. Compte tenu de la (unspec avais) la latence du réseau de transfert 4-8 GO, c'est probablement encore la meilleure solution sur toute qui utilise plusieurs ordinateurs.
- Cette "réponse" est tout à fait irrespectueux. L'OP clairement sait comment calculer une médiane. Il pose la question sur la façon de le distribuer. Maintenant, si vous pensez que la distribution n'est pas nécessaire, expliquer pourquoi, dans votre réponse. Le simple affichage d'une évidence un liner est inutilement désagréable et fondamentalement inutile.
- c'est une très bonne réponse. "Prématuré" est malheureusement un gros malaise dans notre industrie.
- Je ne m'attends pas à tous les problèmes de l'OOM killer depuis de tri permet de passer d'un "mémoire" de l'algorithme à faire "du disque en fonction de fusion de tri" une fois que la quantité de données est au-dessus d'une certaine taille (qui serait dans ce cas).
- Votre point sur prématuré de distribution serait probablement valable que si cette réponse ne serait pas prendre de 34 minutes pour s'exécuter, alors qu'elle pourrait être atteint en seulement quelques minutes (ou secondes) avec 100 ordinateurs. La quantité de données à transférer n'est pas très grand, l'impact sur le réseau ne serait pas terrible. Je sais que je peux écrire une Étincelle code aussi court que cette réponse, et de calculer le résultat au bout de 1 minute, mais je n'ai pas fais parce que c'est inintéressant. Une bonne réponse devrait offrir une belle (et assez simple, parce que le plus simple est mieux) de l'algorithme.
- comment savez-vous la "distribution" est prématuré? Certes, cette réponse montre rien de la sorte.
- Ne cela ne fonctionne que si les nombres sont-ils uniques?
- non, il travaille avec des nombres en double.
- Juste essayé avec une mémoire tampon de 14 GiB, et visiblement ça ne change rien, au moins sur ce type de tri: le temps réel est 38mn, 2 minutes de plus que sans changer la valeur par défaut (tri a été à l'aide de <2 GiB sur le premier test). Et l'ordinateur a été un peu moins occupé dans ce deuxième essai!
- lol désolé cérébrale massive d'échouer. Je vais garder cela comme un monument à besoin de plus de thé.
- Hein, merci pour les tests. En supposant que vous n'avez 14 Go de libre (et ce n'était pas seulement raclée), j'aurais attendu pour exécuter un beaucoup plus rapidement et avec plus de mémoire.
- Oui, j'ai eu 14 GiB entièrement libre de RAM et je n'ai pas de swap.
InformationsquelleAutor DrPizza
24

Je déteste être le contrarian ici, mais je ne crois pas que le tri est obligatoire, et je pense que n'importe quel algorithme impliquant le tri d'un milliard de dollars/100 numéros est lente. Considérons un algorithme sur un ordinateur.

1) Sélectionnez 1000 valeurs au hasard à partir de l'milliards de dollars, et les utiliser pour obtenir une idée de la répartition des nombres, en particulier une gamme.

2) au Lieu de trier les valeurs, de les affecter à des seaux basé sur la distribution que vous venez de calculer. Le nombre de compartiments est choisi de sorte que l'ordinateur peut traiter de manière efficace, mais qui ne devrait pas être aussi grande que la pratique. Le seau plages devraient être environ le même nombre de valeurs d'aller dans chaque seau (ce n'est pas critique pour l'algorithme, mais il permet d'efficacité. De 100 000 seaux pourrait être approprié). Remarque le nombre de valeurs dans chaque seau. C'est un O(n) processus.

3) de Trouver lequel seau de plage de la médiane se situe. Cela peut être fait simplement en examinant le nombre total de personnes dans chaque seau.

4) Trouver le médian en examinant les valeurs dans ce seau. Vous pouvez utiliser une sorte ici si vous le voulez, puisque vous êtes seulement de tri peut-être 10 000 numéros. Si le nombre de valeurs dans ce seau est grand, alors vous pouvez utiliser cet algorithme de nouveau jusqu'à ce que vous avez un assez petit nombre de trier.

Cette approche parallelizes trivialement en divisant les valeurs entre les ordinateurs. Chaque ordinateur rapports les totaux de chaque compartiment à un "contrôle" de l'ordinateur qui ne l'étape 3. Pour l'étape 4 de chaque ordinateur envoie le (tri) des valeurs dans le seau pour le contrôle de l'ordinateur (vous pouvez faire ces deux algorithmes en parallèle aussi, mais il n'est probablement pas la peine).

Le processus total est O(n), puisqu'à la fois les étapes 3 et 4 sont triviales, à condition que le nombre de compartiments est assez grand.
- Je pense que c'est quelque chose entre la médiane des médianes et quickselect algorithmes. en.wikipedia.org/wiki/Selection_algorithm
- Dans l'étape 4, les seaux peuvent ne pas contenir que 10 000. Cela pourrait être le cas que la distribution est biaisée vers le milieu, dans lequel, il peut contenir des, disons, 80% des données, ce qui est tout de même énorme.
- Modifié pour en tenir compte.
- J'aime cette approche.
- La performance n'est pas O(n) dans cet algorithme: vous pourriez avoir la plupart des numéros de tomber dans la "médiane" dans un seau, et il pourraient faire aussi mal que le tri de tout.
- +1 est venu avec l'idée même de l'aide de seaux. Je suis en désaccord avec "l'algorithme impliquant le tri d'un milliard de dollars/100 numéros est lente" si, voir ma réponse ci-dessous 😉
InformationsquelleAutor DJClayworth
11

Un milliard de dollars est en fait tout à fait une tâche ennuyeuse pour un ordinateur moderne. Nous parlons de 4 GO d'une valeur de 4 octets entiers ici ... 4 GO ... c'est la RAM de certains smartphones.
```
public class Median {
    public static void main(String[] args) {
        long start = System.currentTimeMillis();

        int[] numbers = new int[1_000_000_000];

        System.out.println("created array after " +  (System.currentTimeMillis() - start) + " ms");

        Random rand = new Random();
        for (int i = 0; i < numbers.length; i++) {
            numbers[i] = rand.nextInt();
        }

        System.out.println("initialized array after " + (System.currentTimeMillis() - start) + " ms");

        Arrays.sort(numbers);

        System.out.println("sorted array after " + (System.currentTimeMillis() - start) + " ms");

        if (numbers.length % 2 == 1) {
            System.out.println("median = " + numbers[numbers.length /2 - 1]);
        } else {
            int m1 = numbers[numbers.length /2 - 1];
            int m2 = numbers[numbers.length /2];
            double m = ((long) m1 + m2) /2.0;
            System.out.println("median = " + new DecimalFormat("#.#").format(m));
        }
}
```
Sortie sur ma machine:
```
created array after 518 ms
initialized array after 10177 ms
sorted array after 102936 ms
median = 19196
```
Alors, ceci termine sur ma machine en moins de deux minutes (1:43 0:10 sont pour générer des nombres aléatoires) à l'aide d'un seul cœur et c'est encore de faire le tri. Rien de compliqué, vraiment.

C'est sûrement un travail intéressant pour les grands ensembles de nombres. Je veux juste faire un point ici: un milliard, c'est peanuts. Alors réfléchissez à deux fois avant de vous commencer à jeter des solutions complexes étonnamment simples tâches 😉
- c'est ce que j'ai dit dans ma réponse ici 🙂 stackoverflow.com/a/31819222/363437
- Honnêtement, je ne l'ai pas lu, mais vous avez raison. ma réponse est certainement plus pratique, cependant, que les gens semblent apprécier un peu plus 😉
- Ce n'est pas la médiane cependant, la médiane est (numbers[numbers.length / 2]+numbers[numbers.length / 2+1])/2 si numbers.length est encore et numbers[numbers.length / 2] seulement si numbers.length est impair.
- correct, mais il ne devrait pas perceptible affecter le temps nécessaire pour calculer la médiane.
- vous avez évidemment raison. J'ai juste mis à jour le calcul de la médiane. Il ne change pas le reste de la réponse, cependant.
- d'accord. bon travail
- C'est en fait la médiane si. Ne pas oublier l'index de tableau à partir de 0?
InformationsquelleAutor sfussenegger
10

La estimation de statistiques d'ordre comme la médiane et le 99e percentile peuvent être distribuées de manière efficace avec des algorithmes comme t-digest ou Q-digest.

Soit à l'aide de l'algorithme, chaque nœud génère un résumé, qui représente la distribution des valeurs stockées localement. Les recueils sont collectées à un seul nœud, fusionné (en fait, en additionnant les distributions), et la médiane ou de tout autre percentile peut ensuite être recherché.

Cette approche est utilisée par elasticsearch et, sans doute, BigQuery (en fonction de la description de la fonction QUANTILE).

InformationsquelleAutor Richard Poole
5

La médiane de cette série de nombres

2, 3, 5, 7, 11, 13, 67, 71, 73, 79, 83, 89, 97

est de 67 ans.

La médiane de cette série de nombres

2, 3, 5, 7, 11, 13, 67, 71, 73, 79, 83, 89

est de 40.

En supposant que la question était d'environ 1 000 000 000 d'entiers(x), où 0 >= x <= 2 147 483 647 et que l'OP a la recherche d' (élément(499,999,999) + élément(de 500 000 000)) /2 (si les chiffres ont été triés). Aussi en supposant que tous les 100 ordinateurs étaient tous égaux.

à l'aide de mon ordinateur portable et GigE...

Ce que j'ai trouvé était que mon portable pouvez trier les 10 000 000 de Int32 de 1,3 secondes. Ainsi, une estimation approximative serait que d'un milliard de nombre pourrait prendre 100 x 1,3 secondes(2 minutes 10 secondes) ;).

Une estimation d'un transfert de fichier d'un fichier de 40 mo sur un réseau Ethernet gigabit est .32 secondes. Cela signifie que le tri des résultats de tous les ordinateurs seront retournés dans environ 32 secondes(ordinateur 99 n'a pas son dossier jusqu'à 30 secondes après le début). À partir de là, il ne devrait pas prendre longtemps pour jeter le plus bas 499,999,998 numéros, ajouter les 2 et diviser par 2.
- En bas de l'électeur commentaire? Il pourrait m'aider à comprendre comment je peux faire mieux.
- Je ne suis pas le bas de l'électeur, mais le tri d'un milliard de chiffres ne prennent pas 100 fois plus longue que le tri de 10 millions de dollars, car le pire des cas, la complexité de tri d'une liste est O(n log n). Le tri est également ordres de grandeur plus lent lorsque vous exécutez hors de la mémoire, et de commencer le tri sur le disque.
- Je pense que vous êtes sur la bonne voie; Si l'objectif est plus rapide possible de répondre à la fois, tri sur plusieurs machines pourrait être une bonne idée. Mais si l'objectif est plus faible moyenne de temps, chaque machine à faire de la recherche plus de sens.
- En supposant qu'ils ont le même facteur (dont ils ne sont probablement pas dus à des problèmes de mémoire) puis a*(1e7)log(1e7) = 1.3sec => a = 1.6e-9sec => a*(1e9)log(1e9) ~ 167sec, de sorte que votre estimation n'était pas éteint.
- Vos estimations sont trop rugueux. Tout d'abord, certains algorithmes de tri aller o(n^2) dans le pire des cas (par exemple, couramment utilisés quicksort). Deuxièmement, vous avez choisi un jeu de données de test, qui est d'environ la taille de votre cache L2. Cela biaise les résultats. Troisièmement, vous (comme de nombreuses autres answerers) supposent que le "nombre" signifie "entier". Cela pourrait signifier float, double ou décimal, qui sont très différentes des caractéristiques de performance.
InformationsquelleAutor dbasnett
5

Cela pourrait en surprendre plus d'un, mais si les nombres sont des entiers assez petit pour s'adapter à l'intérieur de 32 bits (ou plus) - il suffit de faire un seau de tri! A seulement besoin de 16GO de ram pour un nombre de 32 bits ints et s'exécute en O(n), ce qui devrait surpasser tout les systèmes distribués raisonnables de n, par exemple, un milliard de dollars.

Une fois que vous avez la liste triée, il est trivial de choisir la médiane. En fait, vous n'avez pas besoin de construire la liste triée, mais seulement en regardant les seaux doivent le faire.

Une mise en œuvre simple est illustré ci-dessous. Ne fonctionne que pour des entiers de 16 bits, mais l'extension à 32 bits devrait être facile.
```
#include <stdio.h>
#include <string.h>

int main()
{
    unsigned short buckets[65536];
    int input, n=0, count=0, i;

    //calculate buckets
    memset(buckets, 0, sizeof(buckets));
    while (scanf("%d", &input) != EOF)
    {
        buckets[input & 0xffff]++;
        n++;
    }

    //find median 
    while (count <= n/2)
    {
        count += buckets[i++];
    }

    printf("median: %d\n", i-1);

    return 0;
}
```
À l'aide d'un fichier texte avec un milliard de dollars (10⁹) le nombre et la course avec time comme
```
time ./median < billion
```
donne un temps de fonctionnement de ma machine 1m49.293s. La plupart du temps d'exécution est probablement d'e /s disque aswell.
- Ce n'est pas vraiment répondre à la question, et s'appuie sur des hypothèses. Par exemple, vous ne savez même pas qu'ils sont des entiers.
- En quoi n'est-il pas de répondre à la question? Et oui, ma réponse assume les nombres sont des entiers. J'ai essayé de l'état de mes hypothèses clairement.
- Vous ne semblez pas à l'état que le fait d'avoir des entiers est une hypothèse, ni vous traiter de la façon d'utiliser le 100 ordinateurs, de l'OP pose des questions sur. Vous pouvez calculer la médiane sur un nœud, mais ce n'est pas la "meilleure" solution, à moins que vous montrer pourquoi. Aussi, radix tri n'est pas o(n) si le nombre de chiffres varie, ce qui dans ce cas n'est certainement, selon en.wikipedia.org/wiki/Radix_sort#Efficiency, il est o (n log n)
- Je commence en disant: "si les entiers sont assez petit pour tenir dans une 32 bits integer"... Radix de tri en O(n) pour une constante de la taille de mot l, comme décrit avec une grande clarté dans le lien que vous avez posté. Ici je suppose constante la taille de mot de 32.
- Ce que vous faites avec les 99 autres ordinateurs n'est pas pertinent dans la présente réponse. Vous ne pouvait empiler les uns sur les autres pour former une pyramide ou de les graver. Ou tout simplement les ignorer.
- downvoters - soin d'expliquer?
InformationsquelleAutor vidstige
3

Bizarrement, je pense que si vous avez assez d'ordinateurs, vous êtes mieux de tri que l'aide O(n) médiane de trouver des algorithmes. (À moins que vos cœurs sont très, très lent, mais, je voudrais simplement utiliser l'un et l'utilisation d'un O(n) médiane de l'algorithme de recherche pour le simple fait de 1e9 nombres; si vous aviez 1e12, cependant, que peut-être moins pratique.)

De toute façon, supposons que nous avons plus le journal de n noyaux pour faire face à ce problème, et nous ne se soucient pas de la consommation d'énergie, juste avoir une réponse rapide. Nous allons plus loin suppose que c'est une machine SMP avec toutes les données déjà chargées dans la mémoire. (Du soleil 32-core sont des machines de ce type, par exemple).

Un thread côtelettes de la liste jusqu'à l'aveuglette dans l'égalité des petits morceaux de la taille et dit à l'autre M threads pour les trier. Les discussions avec diligence le faire, dans (n/M) log (n/M) temps. Ils retournent ensuite non seulement leurs médianes, mais, disons, leur 25e et 75e percentiles ainsi (pervers pire des cas, sont mieux si vous choisissez des chiffres légèrement différents). Maintenant, vous avez 4M plages de données. Vous puis trier ces plages et du travail vers le haut par le biais de la liste jusqu'à ce que vous trouver un nombre tel que, si vous vous débarrassez de chaque gamme dont la taille est inférieure ou contient le nombre, vous aurez jeté la moitié de vos données. C'est votre limite inférieure pour la médiane. Faire de même pour la limite supérieure. Cela prend quelque chose comme M log M temps, et tous les cœurs avoir à attendre, donc c'est vraiment gaspiller M^2 log M de temps potentiels. Maintenant que vous avez votre seul thread dire aux autres, de jeter toutes les données en dehors de la plage (vous devriez jeter environ la moitié à chaque passage) et répète que c'est un trivialement opération rapide, puisque les données sont déjà triées. Vous ne devriez pas avoir à répéter cette plus de log(n/M) fois avant qu'il est plus rapide de saisir les autres données et l'utilisation d'un standard O(n) médiane finder sur elle.

Total de la complexité est quelque chose comme O((n/M) log (n/M) + M^2 log M log (n/M)). Ainsi, c'est plus rapide que O(n) médiane de tri sur un seul cœur si M >> log(n/M) et M^3 log M < n, ce qui est vrai pour le scénario que vous avez décrit.

Je pense que c'est un très mauvaise idée compte tenu de la façon inefficace, il est, mais il est plus rapide.
- o (n/M log (n/M)) est, littéralement, o (n log n), parce que o(n/M log (n/M)) = 1/M o(n (log n - log M)) = o (n log n). Vous ne pouvez pas vraiment comparer avec o(n) comme ça, comme le "o" signifie "proportionnelle pour les grandes très n avec certains quelconque constante". Sauf si vous savez ces constantes on ne peut pas comparer, mais pour assez grand N les constantes ne sont pas dominantes. Pour les numéros les plus bas, tous les paris sont éteints, o(1) peut facilement être plus lent que o(n!).
- et M sont les variables qui peuvent évoluer de manière arbitraire, de sorte que l'on comprend à la fois. En particulier, j'ai postulé que M > log n, ce qui signifie que si vous vous souciez qu'il est n log n au lieu de simplement n, vous avez des soins à ce sujet M aussi.
InformationsquelleAutor Rex Kerr
2

Un ordinateur est plus que suffisant pour résoudre le problème.

Mais supposons qu'il ya 100 ordinateurs. La seule chose complexe que vous devez faire est de trier la liste. Diviser pour 100 parties, en envoyer une partie à chaque ordinateur, qu'ils soient triés là, et de fusionner les parties après que.

Alors prenez le nombre à partir du milieu de la liste triée (c'est à dire avec un indice de 5 000 000 000).
- Pourquoi est-il downvoted?
- De toute façon maintenant, mon rep est assez rond 🙂
- -1 parce que le tri n'est pas nécessaire pour trouver une médiane.
- La fusion est le meilleur en O(n), et vous pouvez trouver la médiane sur une base unique en O(n), ce qui semble créer un beaucoup de travail pour peu de gain.
InformationsquelleAutor Roman
2

Cela peut être fait plus rapidement que l'algorithme voté (n log n)

- Les statistiques d'ordre distribué de sélection de l'algorithme O(n)

Simplifier le problème à l'origine de problème de trouver le k-ième nombre dans un tableau non trié.

- Comptage de tri histogramme O(n)

Vous avez à assumer certaines propriétés sur la plage des numéros de la plage de place dans la mémoire?
- Externe, de fusion et tri - O(n log n) - décrit ci-dessus

En gros, vous trier les nombres sur la première passe, puis de trouver la médiane sur la deuxième.

- Si rien n'est connu sur la distribution du nombre d'autres
les algorithmes peuvent être produites.

Pour plus de détails et la mise en œuvre, voir:

http://www.fusu.us/2013/07/median-in-large-set-across-1000-servers.html

InformationsquelleAutor user1712376
2

Cela dépend de vos données. Le pire scénario est que c'est distribuée de manière uniforme numéros.

Dans ce cas, vous pouvez trouver la médiane en O(N) le temps comme dans cet exemple:

Supposons que vos numéros sont 2,7,5,10,1,6,4,4,6,10,4,7,1,8,4,9,9,3,4,3 (la plage va de 1 à 10).

Nous créer 3 seaux: 1 à 3, 4 à 7, 8 à 10. Notez que le haut et le bas ont taille égale.

Nous remplir les seaux avec les chiffres, compter combien tombent dans chaque, le max et le min
- faible (5): 2,1,1,3,3, min 1, max 3
- moyen (10): 7,5,6,4,4,6,4,7,4,4, min 4, max 7
- haute (5): 10, 10, 8, 9, 9, min 8, max 10
La moyenne tombe au milieu d'un seau, nous négligeons le reste

Nous créer 3 seaux: 4, 5-6, 7. Bas va commencer avec un nombre de 5 et avec un max de 3 et de haute avec un minimum de 8 et un nombre de 5.

Pour chaque numéro, nous comptons combien tombent dans le bas et le haut du seau, le max et le min, et de garder le milieu seau.
- vieux bas (5)
- faible (5): 4, 4, 4, 4, 4, max 4
- moyen (3): 5,6,6
- de haut (2): 7, 7, 7 min
- vieux haut (5)
Maintenant, nous pouvons calculer la médiane directement: nous avons une situation comme celle-ci
```
old low    low          middle  high  old high
x x x x x  4 4 4 4 4 4   5 6 6  7 7   x x x x x
```
donc la médiane est de 4,5.

En supposant que vous savez un peu plus sur la distribution, vous pouvez affiner la façon de définir les plages, pour optimiser la vitesse. Dans tous les cas, la performance devrait aller avec O(N), parce que 1 + 1/3 + 1/9... = 1.5

Vous avez besoin de min et de max, car des cas limites (par exemple, si la médiane est la moyenne entre le max de vieux bas et l'élément suivant).

L'ensemble de ces opérations peut être parallélisée, vous pouvez donner à 1/100 de données à chaque ordinateur et de calculer les 3 compartiments dans chaque nœud, puis de distribuer le seau que vous gardez. Cela montre que vous utilisez le réseau de manière efficace parce que chaque numéro est passé en moyenne 1,5 fois (donc O(N)). Vous pouvez gagner même si vous ne vous passe les nombres minimaux entre les nœuds (par exemple, si le nœud 1 a 100 numéros et le nœud 2 a 150 numéros, puis le nœud 2 peut donner les numéros 25 à nœud 1).

À moins que vous en savez plus sur la distribution, je doute que vous pouvez faire mieux que O(N) ici, parce que vous avez réellement besoin de compter les éléments au moins une fois.
- N'est-ce pas le vrai pire des cas (pour votre algorithme) lorsque tous les nombres sont égaux ? Si je suis correct, aucun de vos seaux aurai jamais rempli en dehors de celui du milieu, avec tous les éléments. Ainsi, vous aurez à parcourir tous les éléments à chaque fois, progresse de façon exponentielle rapide au milieu de l'intervalle. Je crois qu'il serait un O(n log n) dans ce cas. Est-il judicieux ? En passant, j'aime bien ton idée
- pas vraiment: tout d'abord, vous pouvez facilement le raccourci "tous les mêmes" scénario parce que vous savez min et max. Comme je l'ai dit dans la réponse, sachant que la distribution peut conduire votre écopage choix; d'autre part, il faudrait encore o(n)+o(n/3)+o(n/9)+... qui est encore o(n) et pas o(n log n).
- D'autre part, il y a probablement un autre scénario du pire des cas, un " U " en forme de distribution. J'ai besoin de réfléchir un peu à ce sujet, de formaliser le pire des cas, mais il pourrait faire pire que o(n) dans ce cas, avec la naïveté de partitionnement.
- Mmm ouais, le min et le max serait de les aider à faire face à "tous les mêmes" cas assez facilement
InformationsquelleAutor Sklivvz
2

Une méthode plus simple est d'avoir des chiffres pondérés.
- Diviser le grand jeu parmi des ordinateurs
- Trier chaque jeu
- itérer sur les petites, et de calculer le poids d'éléments répétés
- de fusion de chacun des 2 jeux en 1 (chacun est triée déjà) la mise à jour des poids
- garder la fusion des listes jusqu'à ce que vous obtenez un seul ensemble
- itérer à travers ce jeu de l'accumulation des poids jusqu'à ce que vous atteignez OneBillion/2
InformationsquelleAutor Ziad Nasser
1

Split 10^9, 10^7 pour chaque ordinateur ~ 80 MO sur chaque. Chaque ordinateur sortes de ses effectifs. Puis l'ordinateur 1 fusion-trie ses propres chiffres avec ceux de l'ordinateur 2, ordinateur 3 et 4, etc ... Puis de l'ordinateur 1 écrit de la moitié des chiffres de 2, de 3 à 4, etc. Puis 1 fusion trie les numéros à partir d'ordinateurs 1,2,3,4, écrit en arrière. Et ainsi de suite. En fonction de la taille de la RAM sur les ordinateurs, peut-être s'en tirer avec ne pas écrire tous les nombres de retour pour les ordinateurs individuels à chaque étape, vous pourriez être en mesure d'accumuler les chiffres sur l'ordinateur 1 pour plusieurs étapes, mais vous ne les mathématiques.

Oh, enfin obtenir la moyenne de la 500000000th et 500000001st valeurs (mais à vérifier il y a assez de 00s là, je n'ai pas).

EDIT: @Romain -- eh bien, si vous ne pouvez pas le croire, même s'il est vrai, alors il n'y a aucun point dans mon révéler la vérité ou de la fausseté de la proposition. Ce que je voulais dire à l'état a été que la force brute, parfois, beats smart dans une course. Il m'a fallu environ 15 secondes pour concevoir un algorithme qui je suis confiant que je peux mettre en œuvre, ce qui fonctionne, et qui sera adaptable à un large éventail de tailles d'entrées et le nombre d'ordinateurs et réglable pour les caractéristiques des ordinateurs et des modalités de travail en réseau. Si il vous prend, ou quelqu'un d'autre, disons de 15 minutes, afin de concevoir un algorithme plus évolué, j'ai un 14m45s avantage de code ma solution et de commencer à courir.

Mais je reconnais volontiers c'est tous affirmation, je n'ai pas mesuré quoi que ce soit.
- ici, nous sommes juste mergesorting tous les nombres. Peut-on faire mieux en utilisant:- "on peut trouver la médiane de deux listes triées dans logn temps. n est la longueur de chaque liste."
- alors que vous répondez à votre propre question, je vais avoir ma solution codé en place, testé et fait. J'attends qu'il existe de meilleures façons, mais parfois parallelising un moyen simple me laisse libre de le rayer de ma tête sur le vraiment des problèmes difficiles.
- avez-vous vraiment fait dans 7 minutes? Je ne peux pas croire que, même si c'est vrai. J'ai fait la même tâche (c'était une université de cession) et il a fallu environ 2 heures pour la mettre en œuvre et tester tous les remoting trucs (j'ai utilisé java RMI).
- Je vois ce que vous dites, mais du même coup, DrPizza est encore plus rapide-de-penser-de la solution, qui est de trier toutes les données sur un seul nœud et d'ignorer les autres 99. Aucun de nous ne sait combien coûte le transfert de données doit être considérée, de sorte que nous sommes tous juste choisir un compromis qui sonne vaguement plausible. Votre solution de transfert de toutes les données plusieurs fois, donc je suis un peu méfiant, mais c'est certainement une solution.
- 'vaguement plausible" -- qui est assez bon pour moi @Steve ! En particulier, en réponse à un vaguement plausible question.
InformationsquelleAutor High Performance Mark
1

Ce pourrait être fait des nœuds à l'aide de données qui ne sont pas triées dans l'ensemble des nœuds (disons à partir des fichiers journaux) de la manière suivante.

Il y a 1 nœud parent et 99 nœuds enfants. Les nœuds enfants ont deux appels d'api:
- stats(): retourne min, max et le comte
- comparer(median_guess): retourne le comte de valeur correspondante, comptent moins de valeur et de compter plus de valeur
Le nœud parent appels stats() sur tous les nœuds enfants, en notant le minimum et le maximum de tous les nœuds.

Une recherche binaire peut maintenant être effectué de la manière suivante:
1. Traversent, le minimum et le maximum d'arrondi vers le bas - c'est la médiane de "deviner"
2. Si la de plus de plus les moins de compter, au minimum pour le deviner
3. Si la plus grande que la quantité est inférieure à la moins de compter, mettre le maximum de la deviner
4. Si le nombre est impair terminer lorsque minimales et maximales sont égales
5. Si count est encore terminer lorsque au maximum <= minimum + deviner.match_count
  Ce pourrait être fait des nœuds à l'aide de données non triées (disons à partir des fichiers journaux) de la manière suivante.
Il y a 1 nœud parent et 99 nœuds enfants. Les nœuds enfants ont deux appels d'api:
- stats(): retourne min, max et le comte
- comparer(median_guess): retourne le comte de valeur correspondante, comptent moins de valeur et de compter plus de valeur
Le nœud parent appels stats() sur tous les nœuds enfants, en notant le minimum et le maximum de tous les nœuds.

Une recherche binaire peut maintenant être effectué de la manière suivante:
1. Traversent, le minimum et le maximum d'arrondi vers le bas - c'est la médiane de "deviner"
2. Si la de plus de plus les moins de compter, au minimum pour le deviner
3. Si la plus grande que la quantité est inférieure à la moins de compter, mettre le maximum de la deviner
4. Si le nombre est impair terminer lorsque minimales et maximales sont égales
5. Si count est encore terminer lorsque au maximum <= minimum + deviner.match_count
Si les stats() et de les comparer() peuvent être pré-calculées avec un O(N/Mlogn/M) trier, puis un O(N/M) pré-calcul avec une mémoire complexité de O(N) pour le pré-calcul. Alors que vous pourriez ne compare() en temps constant, de sorte que la chose entière (y compris les pré-calcul) permettrait de s'exécuter en O(N/MlogN/M)+O(logN)

Laissez-moi savoir si j'ai fait une erreur!
- ouais je venais de faire une recherche binaire. Permettrait d'économiser de la bande passante du réseau en n'appelant chaque ordinateur quelques fois. Aussi chaque machine pourrait avoir un "pivot" où en place des swaps de numéros de chaque côté du pivot pour gagner du temps. (pivot serait la précédente estimation de la médiane, de sorte que la prochaine fois, n'avez qu'à passer à travers tous les numéros sur un côté du pivot)
InformationsquelleAutor teambob
0

Comment à ce sujet:- chaque nœud peut prendre de 1 milliard de dollars/100 numéros. À chaque nœud, les éléments peuvent être triés et médiane peut être trouvé. Trouver la médiane des médianes. nous pouvons, en agrégeant les chiffres des nombres inférieurs à la médiane de la médiane sur tous les nœuds de trouver x%:y% split qui de la médiane-de-médianes fait. Maintenant, demandez à tous les nœuds pour supprimer des éléments de moins que la médiane des médianes( en prenant exemple de 30%:70% split).30% les chiffres sont supprimés. 70% de 1 milliard de dollars est 700million. Maintenant, tous les nœuds qui supprimés à moins de 3 millions d'nœuds peuvent envoyer ces nœuds supplémentaires retour à un ordinateur principal. L'ordinateur principal redistribue de manière que tous les nœuds ont presque le même nombre de nœuds(7million). Maintenant que le problème est réduit à 700million numéros.... continue jusqu'à ce que nous avons un plus petit ensemble qui peut être calculée sur une comp.
- En essence, nous sommes toujours à réduire le problème posé par au moins 30%, et nous sommes à atteindre un grand nombre de calcul parallèle par le biais de ce. Chaque nœud démarre avec 10millions et réduit son ensemble de données de 30% à chaque itération.
- Dans la première itération nous recherchons 500Millionth nombre. Dans la deuxième itération - si le nombre de chiffres supprimés est 300million alors, nous regardons pour 200millionth nombre et ainsi de suite...
- Cela ressemble comme il est sur la bonne voie, mais vous ne vous sentez pas à l'expliquer très clairement comment éviter de jeter de la médiane par accident avec votre 30%/70% de split. Prendre le contre-exemple suivant: supposons que votre premier 29% est tous les zéros, et tous les autres blocs de compter jusqu'à 1000, et chaque ensemble de blocs est un de plus que le dernier. Le 30e percentile médiane de jeter tous de 29% de ces données, et un peu moins de la moitié de 61% des données, qui est de 29+30% = 59% des données. Oups, nous avons simplement utilisé la médiane! Donc, apparemment, vous ne veux pas dire que la, ou au moins vous dire qu'il plus intelligente que j'ai interprété.
InformationsquelleAutor anony
0

Nous allons d'abord travailler sur la façon de trouver une médiane de n nombres sur une seule machine:
Je suis fondamentalement à l'aide de stratégie de partitionnement.

Problème :la sélection(n,n/2) : Trouver à n/2, le nombre de moins.

Vous pick-dire moyen de l'élément de k et les données de la partition en 2 sous-tableaux. le 1er contient tous les éléments < k et 2ème contient tous les éléments >= k.

si sizeof(1er sous-tableau) >= n/2, vous savez que ce sous-ensemble contient la médiane. Vous pouvez ensuite lancer la 2ème sous-tableau. Résoudre ce problème de sélection(sizeof 1er sous-tableau,n/2).

Dans d'autre cas, se débarrasser de ce 1er subarray et résoudre de sélection(2e subarray , n/2 - sizeof(1er subarray))

Le faire de manière récursive.

complexité temporelle est O(n) temps prévu.

Maintenant, si nous avons beaucoup de machines, à chaque itération, nous avons à traiter un tableau à split, nous distribuer le tableau dans diff machines. Chaque processus de la machine de leur partie de tableau et envoie le résumé d'un centre de contrôle de la machine c'est à dire la taille de 1er subarray et la taille de la 2e subarray. Le hub machines ajoute des notes de synthèse et de décider qui subarray (1ère ou 2ème) pour traiter d'autres et 2ème paramètre de sélection et l'envoie à chaque machine.
et ainsi de suite.

Cet algorithme peuvent être appliquées très soigneusement à l'aide de la carte de réduire?

Comment est-il?

InformationsquelleAutor xyz

Je pense que Steve Jessop la réponse sera la plus rapide.

Si le réseau de transfert de données taille est le goulot d'étranglement, voici une autre approche.

Divide the numbers into 100 computers (10 MB each). 
Loop until we have one element in each list     
    Find the meadian in each of them with quickselect which is O(N) and we are processing in parallel. The lists will be partitioned at the end wrt median.
    Send the medians to a central computer and find the median of medians. Then send the median back to each computer. 
    For each computer, if the overall median that we just computed is smaller than its median, continue in the lower part of the list (it is already partitioned), and if larger in the upper part.
When we have one number in each list, send them to the central computer and find and return the median.

32 MO, vous voulez dire ?
Qu'entendez-vous par continuer dans la partie inférieure de la liste?

InformationsquelleAutor Cem

0

Je voudrais faire comme ceci:

au début, tous les 100 de travail pour trouver le plus haut et le plus petit nombre; chaque ordinateur a sa part de la base de données/fichier qui elle demande;

quand le plus haut et le plus bas numéros sont disponibles, un ordinateur lit les données, et distribue chaque numéro, également, pour le reste de l'99; les numéros sont distribués par des intervalles égaux; (on peut prendre à partir de -100 m à 0, l'autre - de 0 à 100 millions de dollars, etc);

Lors de la réception des numéros, chacun des 99 des ordinateurs déjà trie;

Ensuite, il est facile de trouver la médiane... Voir combien de chiffres a chaque ordinateur, ajoutez-les tous (la somme de la façon dont beaucoup de chiffres, il y a, ne sont pas les chiffres eux-mêmes), diviser par 2; calculer dans lequel l'ordinateur est le nombre, et à l'index;

🙂 voilla

P. S. Semble qu'il y a beaucoup de confusion ici; la MÉDIANE est le NOMBRE AU MILIEU D'UNE LISTE DE NUMÉROS de!

InformationsquelleAutor Ion
0

Vous pouvez utiliser le tournoi de l'arbre méthode pour trouver la médiane.
Nous pouvons créer un arbre avec 1000 congé de nœuds tel que chaque nœud feuille est un tableau.
Ensuite, nous menons n/2 tournois entre les différents tableaux.La valeur de la racine après le n/2 tournois en est le résultat.

http://www.geeksforgeeks.org/tournament-tree-and-binary-heap/

InformationsquelleAutor karan kapoor
0

Si les chiffres ne sont pas distincts, et seulement appartiennent à une certaine gamme, c'est qu'ils sont répétés, alors une solution simple qui me vient à l'esprit est de distribuer les numéros de 99 machines aussi, et de garder la machine en tant que maître. Maintenant, chaque machine effectue une itération sur ses chiffres donnés, et stocke le nombre de chaque nombre dans une table de hachage ensemble. Chaque fois que le nombre répété dans l'ensemble des numéros attribués à l'ordinateur, il met à jour son compte dans la table de hachage ensemble.

Toutes les machines de retourner les hachage ensemble de l'appareil maître. Le maître de la machine combine le hachage des ensembles, en additionnant le nombre de la même clé dans une table de hachage ensemble. Par exemple machine#1 de hachage de l'ensemble avait une entrée d' ("1",7), et la machine#2 de hachage de l'ensemble avait une entrée d' ("1",9), de sorte que le maître de la machine lorsque le peignage de la valeur de hachage d'ensembles rend une entrée d' ("1", 16), et ainsi de suite.

Une fois que le hachage de jeux ont été fusionnés, puis il suffit de trier les clés, et vous pouvez maintenant trouver facilement l' (n/2)ème élément et le (n+2/2)ème élément, de la triés hachage ensemble.

Cette méthode ne sera pas bénéfique si les milliards de nombres distincts.

InformationsquelleAutor Eric B.
0

Eh bien, supposons que vous savez que le nombre d'entiers distincts est (dire) de 4 milliards de dollars, alors vous pouvez seau en 64 ko de seaux et d'obtenir un système distribué, le nombre de chaque compartiment à partir de chaque ordinateur du cluster(100 ordinateurs). Combiner tous ces chiffres. Maintenant, trouver le seau qui a de la médiane, et cette fois seulement demander des seaux pour le 64 ko éléments qui se trouvent dans votre cible seau. Cela nécessite O(1) (en particulier 2) des requêtes sur votre "cluster". 😀

InformationsquelleAutor gandharv garg
0

Mon sou vaut la peine, après tout ce qui a déjà été évoqué par d'autres:

Trouver la médiane sur une seule machine est O(N): https://en.wikipedia.org/wiki/Selection_algorithm.

L'envoi de N nombres de 100 machines est également en O(N). Ainsi, afin de rendre l'utilisation de 100 machines intéressant, la communication doit être relativement rapide, ou N est si grande qu'une machine ne peut pas gérer tout en N/100, c'est faisable, ou nous voulons considérer le problème mathématique, sans vous soucier des datacommunication.

Supprimer des choses, bref, je vais donc supposer que, dans des limites raisonnables, nous pouvons envoyer ou de distribuer les numéros sans affecter l'efficacité de l'analyse.

Considérons alors l'approche suivante, où une machine est choisi pour être le "maître" pour un traitement général. Ce sera relativement rapide, de sorte que le "maître" participe également à la commune tâches que chaque machine effectue.
1. Chaque machine reçoit N/100 du nombre, calcule sa propre médiane et envoie cette information au maître.
2. Le maître compile une liste triée de tous distincts les médianes et les envoie à chaque machine, la définition d'une séquence ordonnée de segments (sur chaque machine, le même), un pour chaque valeur médiane (une seule valeur seau) et un pour chaque intervalle entre les médianes. Bien sûr, il y a aussi le bas de gamme et haut de gamme de seaux pour les valeurs au-dessous de la plus basse à la médiane et au-dessus de la plus haut.
3. Chaque machine calcule le nombre de numéros de tomber dans chaque compartiment et communique les informations pour le maître.
4. Le maître détermine le seau contient la médiane, combien de valeurs plus faibles (au total) tombent en dessous de ce seau, et combien de ci-dessus.
5. Si le seau est une valeur unique seau (l'une des médianes) orelse sélectionnés seau ne contient que des 1 (N impair) ou 2 (N) les valeurs que nous aurons terminé. Sinon, nous répétez les étapes ci-dessus avec la suivante (évident) modifications:
6. Seulement les numéros à partir du seau sont (re)distribués par le maître de l'100 machines, et de plus
7. Nous n'allons pas calculer (sur chaque machine) de la médiane, mais le k-ième valeur, où l'on tient compte de la façon dont de nombreux numéros les plus élevés ont été écartés du total, et combien de numéros les plus bas. Conceptuellement, chaque machine a également sa part de la jetée haut/bas de numéros et en tienne compte lors du calcul de la nouvelle médian dans le jeu (conceptuellement) comprend (sa part) les rebuts de nombres.
Temps-la complexité:
1. Un peu de réflexion, vous convaincra que sur chaque étape le nombre total de valeurs à analyser est réduite par un facteur d'au moins deux (2 serait malade de cas; vous pouvez vous attendre de l'amélioration significative de réduction). De là, nous obtenons:
2. En supposant que la recherche de la médiane (ou k-ième valeur), qui est O(N), prend c*N temps où le préfacteur c ne varie pas trop violemment avec N de sorte que nous pouvons la considérer comme une constante pour le moment, nous allons obtenir notre résultat final en au plus 2*c*N/100 du temps. L'utilisation de 100 machines nous permet, par conséquent, un facteur d'accélération de 100/2 (au moins).
3. Comme l'a remarqué dans un premier temps: le temps de communiquer les chiffres entre les machines peuvent le rendre plus attrayant pour les tout simplement tout faire sur une seule machine. Cependant, SI nous allons de l'approche distribuée, le nombre total de numéros à être communiquée à toutes les étapes ne dépassera pas 2*N (N pour la première fois, <=N/2, la deuxième fois, <= la moitié de celle du troisième, et ainsi de suite).
InformationsquelleAutor Bert te Velde
-1
1. Diviser le 1 milliards de chiffres dans 100 machines. Chaque machine dispose de 10^7 numéros.
2. Pour chaque numéro entrant à une machine, store le nombre, la fréquence de la carte,
  nombre -> count. Aussi stocker le nombre minimum de chaque machine.
3. Trouver médian dans chaque machine: à partir de min nombre dans chaque machine, somme comtes jusqu'à l'indice médian est atteint. La médiane de chaque machine, ce sera l'env. moindre et plus de 5*10^6 numéros.
4. Trouver la médiane de tous les médianes, qui sera moindre et plus de env. 50*10^7 numéros, qui est la médiane de 1 milliard de dollars de chiffres.
Maintenant, certains d'optimisation de la 2ème étape: au Lieu de les stocker dans une carte fréquence, store le nombre de comptes dans une variable tableau de bits. Par exemple: Permet de dire à partir de min nombre dans une machine, ce sont le nombre de fréquences:
```
[min number] - 8 count
[min+1 number] - 7 count
[min+2 number] - 5 count
```
Ci-dessus peuvent être stockées dans le tableau de bits que:
```
[min number] - 10000000
[min+1 number] - 1000000
[min+2 number] - 10000
```
Remarque que, globalement, il en coûtera environ 10^7 bits pour chaque machine, car chaque machine ne gère que 10^7 numéros. 10^7bits = 1.25*10^6 octets, ce qui est de 1,25 MO

Donc, avec l'approche ci-dessus chaque machine devra 1.25 MO d'espace pour calculer les locaux de la médiane. Et la médiane des valeurs moyennes peuvent être calculées à partir de ces 100 locaux médianes, résultant en une médiane de 1 milliard de dollars de chiffres.
- Que faire si les chiffres sont à la flotte?
InformationsquelleAutor Shiv
-1

Je suggère une méthode pour calculer la Médiane. 🙂 Si ces milliards de nombres dans un au hasard l'ordre, je pense que je peux le prendre 1/100 et 1/10 d'un milliard de nombre au hasard, de les trier avec machine à 100, puis choisissez la médiane d'entre eux. Ou laissez-la scission de milliards de chiffres dans 100 parties, de laisser chaque machine pick 1/10 de chaque partie au hasard, calculer la médiane d'entre eux. Après que nous avons 100 chiffres, et nous pouvons calculer la médiane de l'100 nombre plus facile. Juste une suggestion, je ne sais pas si c'est mathématiquement correct. Mais je pense que vous pouvez afficher le résultat d'un pas-si-bon-à-math manager.
- Il n'est évidemment pas correct, et je recommande fortement que vous ne supposez jamais que votre interlocuteur est un cochon stupide vous pouvez tromper
- C'est juste une blague sur le manager.
- Haha ok, si il ne change pas le fait que votre réponse est incorrecte. Il est très facile de le prouver
- OK, après avoir lu certains des exposés sur les statistiques, je pense que l'idée de ramasser 1/100 ou même 1/1000 au hasard d'un milliard de nombre et de calculer leur revenu médian est pas si mal. C'est juste un calcul approximatif.
InformationsquelleAutor lazyboy
-3

Steve Jessop la réponse est fausse:

considérer les quatre groupes suivants:

{2, 4, 6, 8, 10}

{21, 21, 24, 26, 28}

{12, 14, 30, 32, 34}

{16, 18, 36, 38, 40}

La médiane est de 21, ce qui est contenu dans le second groupe.

La médiane des quatre groupes sont de 6, 24, 30, 36, Le total médian est de 27.

Ainsi, après la première boucle, les quatre groupes deviendront:

{6, 8, 10}

{24, 26, 28}

{12, 14, 30}

{16, 18, 36}

Le 21 sont déjà jetés à tort.

Cet algorithme en charge uniquement le cas lorsqu'il y a deux groupes.

InformationsquelleAutor

Vous devez vous connecter pour publier un commentaire.