Écrire un programme pour trouver les 100 plus grands nombres d'un tableau de 1 milliards de chiffres

J'ai récemment assisté à une interview où on m'a demandé "écrire un programme pour trouver les 100 plus grands nombres d'un tableau de 1 milliard de dollars de chiffres".

J'ai seulement été en mesure de donner une force brute solution qui a été pour trier le tableau en O(nlogn) le temps de la complexité et de prendre les 100 derniers numéros.

Arrays.sort(array);

L'intervieweur a la recherche d'un meilleur temps de la complexité, j'ai essayé un couple de d'autres solutions, mais a échoué à lui répondre. Est-il un meilleur temps de la complexité de la solution?

Bucketsort pourrait être une allusion
Peut-être le problème, c'est que ce n'était pas une question de tri, mais un à la recherche d'un.
Comme une note technique de tri peut être pas le meilleur moyen de résoudre le problème, mais je ne pense pas que c'est de la force brute - je pense à une aggravation de la situation, des moyens de le faire.
Une autre force brute méthode serait de créer un réseau parallèle dans lequel vous stocker la position de chaque chiffre dans le "plus grand nombre" de la concurrence. Vous itérer le premier élément et affecter un 1. Lorsque vous arrivez à la 8701th un vous parcourez la précédente 8700 et "mise à jour" de leur position: Ajouter 1 s'ils sont inférieurs, et de la laisser dans le cas contraire (mais dans ce cas, ajouter un à la position de l'actuel, 8701th, nombre). Il est probablement en O(n^2).
Voir en.wikipedia.org/wiki/Partial_sorting et en.wikipedia.org/wiki/Selection_algorithm
Je viens de penser à un encore plus stupide de la force brute de la méthode...de Trouver toutes les combinaisons possibles de 100 éléments de la 1 milliards d'élément de tableau et de voir laquelle de ces combinaisons a la somme la plus importante.
Vous pouvez également parcourir le tableau et la copie de ses effectifs en une carte de jeux, dans lequel la clé est le nombre de chiffres de chaque numéro d'origine est. Alors vous ne devez effectuer une itération de votre carte par la clé dans le sens inverse de l'ordre et de garder saisissant vos numéros et de les compter. À un certain moment vous aimerai atteindre au-delà de 100 numéros, de sorte que vous besoin de sélectionner seulement certains des chiffres de la dernière série; dire par exemple que les jeux avec plus de 9 chiffres vous avais donné 96 numéros, et un ensemble de nombres à 8 chiffres contient 9 numéros: vous avez seulement besoin de 4 d'entre eux de sorte que vous aurez besoin de les trouver... par la force brute, bien sûr 🙂
Cette dernière stratégie a ses binaire de contrepartie, ce qui est intéressant, car il pourrait être appliqué sans l'aide de l'espace supplémentaire. Lire le premier bit de chaque numéro, en fonction du type dans lequel elle est stockée. Si il y a plus de 100 1, garder tous ces chiffres et d'éliminer ceux avec 0; sinon, vous avez déjà des gagnants (dire, 63) et vous avez besoin de garder une itération de trouver le reste des 37 numéros. Vous ferez cela en regardant le deuxième bit. Vous allez balayer les nombres de gauche à droite, de sorte que vous pouvez directement choisir ceux avec la plus extrême gauche 1s'.
Notez que tous les déterministe (et corriger) les algorithmes sont O(1) dans ce cas, car il n'y a pas de dimension augmentation. L'enquêteur doit m'ont demandé "Comment trouver les m plus grands éléments à partir d'un tableau de n avec n >> m?".
Oui, nous avons été en supposant que n a été l'un milliard seulement par le contexte. La confusion des concepts que l'interviewer a eu, c'est plutôt commun, à partir de mon expérience.
Je suis peut-être fou, mais ne pourriez-vous pas utiliser une variation sur un radix MSD trier pour en faire un algorithme O(n)?
Voir aussi: Obtenir les 100 plus grand nombre à partir d'une liste infinie
Wow, comment cette question peut devenir 59 jusqu'voix et la meilleure réponse 58 upvotes alors que cette question est seulement de 16 heures?
Il n'est pas rare que certaines question a plus de 50 upvotes après un jour. Ils sont une minorité, mais bien souvent, vous pouvez trouver l'un d'eux.
Cette question montre l'effort de la recherche; je pense que je vais upvote il. 79 d'autres peut-être pas tort, après tout.
Également similaire à Comment puis-je trier 1 millions de numéros, et d'imprimer uniquement le top 10 en Python?
Il a également été en vedette dans le stackoverflow newsletter. Que j'ai pour elle, et c'est comment il a obtenu ma upvote.
J'ai trouvé que l'utilisation d'un tri rapide est très efficace avec un grand nombre de tableaux
Je pense juste parcourant chaque nombre dans la grande liste et supprimer des numéros de haut en devient finalement plus efficace que le tri si m reste constante et n augmente...
statistiques.
Cela semble être un problème de statistiques d'ordre... trouver le 100e plus petit numéro de dire N dans la liste et ensuite il suffit de parcourir le tableau une fois pour sélectionner tous les numéros moindre que le N. Pour plus de vérifier Erik de conférence 6 (MIT analyse d'algorithmes ) .
Je pense que nous pouvons tout simplement obtenir en O(n) . Nous pouvons utiliser de tri à bulles pour obtenir les 100 plus grands éléments en utilisant le code suivant
Double Possible de Récupération du top 100 des numéros à partir d'une centaine de millions de chiffres

InformationsquelleAutor userx | 2013-10-07

algorithm sorting

327

Vous pouvez garder une file d'attente prioritaire de les 100 plus grand nombre, l'itération à travers les milliards de chiffres, chaque fois que vous rencontrez un nombre plus grand que le plus petit numéro dans la file d'attente (la tête de la file d'attente), de supprimer la tête de la file d'attente et ajouter le nouveau numéro de la file d'attente.

EDIT:
en tant que Dev a noté, avec une file d'attente de priorité mis en œuvre par un segment de mémoire, la complexité de l'insertion pour la file d'attente est O(logN)

Dans le pire des cas, vous obtenez billionlog₂(100) ce qui est mieux que billionlog₂(billion)

En général, si vous avez besoin le plus grand K nombres à partir d'un ensemble de N nombres, la complexité est O(NlogK) plutôt que O(NlogN), cela peut être très important lorsque K est très faible en comparaison des N.

EDIT2:

Le temps de cet algorithme est assez intéressant, car à chaque itération une insertion peut ou peut ne pas se produire. La probabilité de la i-ième nombre pour être inséré dans la file d'attente est la probabilité d'une variable aléatoire est supérieure à au moins i-K variables aléatoires à partir de la même distribution (les k premiers nombres sont automatiquement ajoutés à la file d'attente). Nous pouvons utiliser les statistiques d'ordre (voir lien) pour calculer cette probabilité. Par exemple, supposons les nombres ont été choisis au hasard uniformément de {0, 1}, la valeur attendue de (i-K), le nombre (de je numéros) est (i-k)/i, et la probabilité d'une variable aléatoire étant plus grande que cette valeur est 1-[(i-k)/i] = k/i.

Ainsi, le nombre d'insertions est:

Et de la durée d'exécution peut être exprimé comme:

(k temps de génération de la file d'attente avec le premier k éléments, puis n-k comparaisons, et le nombre d'insertions, comme décrit ci-dessus, chacun prend une moyenne log(k)/2 temps)

Noter que lorsque N est très grand en comparaison des K, cette expression est beaucoup plus proche de n plutôt que NlogK. C'est un peu intuitif, comme dans le cas de la question, même après 10000 itérations (ce qui est très faible comparer à un milliard de dollars), les chances d'un certain nombre pour être inséré dans la file d'attente est très faible.
- Bonne idée, le mauvais type de conteneur. Vous voulez un conteneur qui a du bon d'insertion à tout moment et de la bonne suppression d'une fin (la valeur la plus faible). Une liste liée peut-être mieux (surtout si vous ré-utilisez le nœud supprimé plutôt que de le supprimer / allouer)
- Une file d'attente de priorité mis en œuvre avec un tas pourrait bien fonctionner. O(logN) insérer et à retirer.
- Il n'est en réalité qu' O(100) pour chaque insertion.
- Vous ne pouvez pas binaire de recherche, une liste liée de manière efficace, c'est pourquoi une file d'attente de priorité est généralement mis en œuvre par un segment de mémoire. Votre insertion le temps est O(n) non O(logn). Vous avez eu droit la première fois (de queue ou de la file d'attente de priorité) jusqu'à ce que Skizz fait de vous une deuxième deviner vous-même.
- En maintenant le pointeur de tableau détruit les avantages de l'utilisation d'une liste liée avec ce qui concerne à ajouter et supprimer des temps. Il n'y a pas moyen de contourner cela.
- Ok, obtenu ce que vous dites, je vais mettre à jour ma réponse, merci
- Veuillez également ajouter, que n dans la file d'attente de priorité cas (nous allons l'appeler k) est MINUSCULE et CONSTANTE par rapport à la grande liste d'entiers. Donc, la complexité globale est beaucoup plus comme O(n * log 100), ce qui est un bon O(n). Aussi cet algorithme peut être effectuée en ligne et ne nécessite pas l'ensemble du jeu de données dans la mémoire.
- ce n'est pas O(n), K n'a pas à être constante (k=n/2 par exemple), mais j'ai ajouté une explication
- si vous regardez le général haut K entier cas, alors oui. Mais il a demandé à propos de k=100 😉
- milliards de dollars est également une constante, de sorte que si c'est le cas, il est en O(1) 😛
- c'est à propos de la relation entre k et n.
- normalement, ce genre de questions des préoccupations pense comme trouver top 10 des pages à partir des milliards de résultats de recherche Google, ou 50 mots les plus fréquents pour un nuage de mots, ou de 10 chansons les plus populaires sur MTV, etc. Donc, je crois, dans normal, il est sûr de envisager k constant et petits par rapport à n. Cependant, on devrait toujours garder à l'esprit cette "situation normale".
- Merci pour l'explication sur ce point.
- O(100) est un non-sens. Tous les O(constante) est O(1).
- que serait le pire des cas, qui serait 100*x et pas de O(100) et la moyenne des cas attendus de l'ensemble à avoir une distribution aléatoire serait de 50*x. Toutefois, si l'ensemble d'un milliard de valeurs sont triées à la moyenne sera de 1 ou 100 et, depuis tous ces chiffres (à l'exception du cas optimal) dépend de la taille de la file d'attente (k), il est beaucoup plus facile de dire O(k)
- Vous avez raison O(100)=O(constant)=O(1). Il n'est pas question que le constat que vous utilisez, donc je ne reçois pas ce qu'est le "non-sens" à propos de O(100).
- FS: j'ai écrit "O(100) pour chaque insérer", qui est d'environ 100*x. Si je n'obtiens pas ce que vous en pensez n'allait pas avec mon commentaire.
- "même après 10000 itérations (ce qui est très faible comparer à un milliard de dollars), les chances d'un certain nombre pour être inséré dans la file d'attente est très faible." - à moins que, qui est, le tableau d'entrée qui arrive à être déjà triés.
- Gardez une liste des 100 meilleurs chiffres que vous avez vu, mais vous vous souciez plus de la plus petite à 100, car c'est celui qui tombe de la fin. Analyse le jeu de la source, et vous n'insérez dans l'ensemble des 100 quand vous avez quelque chose de plus grand que le plus petit.
- Votre calcul de temps d'exécution est trop compliqué et probablement faux. Moment de l'Insertion pour les k premiers éléments est linéaire puisque vous pouvez faire un tas dans le temps linéaire. (Et de toute façon, log k! ≅ klogk par Stirling approximation.) Le nombre de refus d'éléments après qui est inférieur à n-k, et le nombre d'éléments retenus est k(digamma(n) - digamma(k) < klog(n). Par conséquent, le total de la durée moyenne est borné par n + klog(n).
- Puisque vous avez 1G éléments, échantillon de 1000 éléments au hasard, et de choisir le plus grand de 100. Qui devrait éviter les cas dégénérés (triés, inverser triés, surtout triés), la réduction du nombre de plaquettes considérablement.
- ce n'est pas juste un tas, c'est une priorité de la file d'attente, vous pouvez génèrent pas de toutes les données triées structure en O(n). (b) pourquoi utiliser une approximation lorsque je me permet d'écrire l'expression réelle? il est plus facile à comprendre. (c) le calcul donne une étroite évaluation de l'exécution du temps, il n'est pas lié.
- Bien sûr, mais le segment est le plus efficace de mise en œuvre de la file d'attente de priorité pour cette application. b) votre expression est une surestimation de toute façon parce que vous supposez log(k) des mesures pour placer l'élément dans votre file d'attente de priorité, alors qu'en moyenne, 2 comparaisons sont nécessaires. c) je ne pense pas que c'est proche et je l'ai souligné deux surestime. Il ne devrait pas être une n log(k) facteur si vous avez calculé correctement, mais plutôt un k log(n) (ou le digamma(n)).
- Le fait qu'il est mis en œuvre avec un tas de ne pas en faire un tas. Je suis d'accord sur la surestimation de l'heure d'insertion (qui, dans le cas moyen est log(k)/2, pas 2). De toute façon, l'idée principale de la méthode de calcul consiste à expliquer nombre d'insertions.
- oui, mais vous avez que le nombre de mal! 🙂 Il devrait être: latex.codecogs.com/...
- Non, je ne l'ai pas, le nombre d'insertions après les premiers éléments k est une somme de k/i où i=k+1...n, tout comme dans le calcul, et que est précis.
- À la réflexion, tu as raison sur le temps logarithmique, mais alors pourquoi ne pas simplifier votre équation en utilisant le digamma de l'identité, de la prise i/i de la somme, et le remplacement de log(k!) avec k? Vous obtiendrez alors n + k(logn)(logk), simple et sympathique.
- il n'y a rien de précis sur 100 donc, en utilisant O(x) notation de la convention serait O(1) donc je m'attendais yoru 100 significat pour votre déclaration. mais voyant que 100 est le pire des cas pour une insertion je lui ai dit que 50 serait aussi bon depuis que la moyenne des cas pour un ensemble aléatoire mais le meilleur des cas, est l'une comparaison pr. insérer. En d'autres termes, il n'est pas une constante
- Je pense que l'hypothèse que les nombres sont l'uniforme est une hypothèse de grand. J'ai envie de déguster quelques-uns des numéros d'abord de déterminer un seuil. Je suis sûr qu'il y a un nombre optimal, mais je voudrais échantillon d'environ 1 000 1e9 nombres et les utiliser pour initialiser la file d'attente de priorité.
- Pour info: il est facile de voir que sum_{i=k+1}^n 1/i < sum_{i=1}^n 1/i < log(n+1) en notant que le dernier est le antiderivative de la fonction continue (1/i) qui est plus grand que la somme de Riemann être prises.
- Notez également sum_{i=k+1}^n 1/i = ln(n)-ln(k)+O(1) par Euler–Mascheroni.
- Pourquoi ne peut-on pas créer un tas de milliards d'éléments et d'en extraire les 100 plus grands éléments. De cette façon, coût = O(milliards d'euros) + 100*O(log(milliards de dollars)) ??
- Permet de dire que la tête de la file d'attente est de 1000 et de tous les éléments de la file d'attente de 1 à 99. Maintenant, la prochaine nombre rencontrées est de 500, selon la solution ci-dessus, depuis 500 à moins de 1000, donc il ne devrait pas entrer dans la file d'attente?
InformationsquelleAutor
135

Si cela est demandé dans une interview, je pense que l'intervieweur veut probablement voir votre processus de résolution de problème, et pas seulement vos connaissances des algorithmes.

La description est tout à fait général, donc peut-être que vous pouvez lui demander de la plage ou de la signification de ces chiffres pour rendre le problème clairement. Cela peut impressionner l'intervieweur. Si, par exemple, ces numéros de stands pour les gens de l'âge de l'intérieur d'un pays (par ex. la Chine),alors il est beaucoup plus facile de problème. Avec une hypothèse raisonnable que la personne en vie est de plus de 200, vous pouvez utiliser un tableau int de taille 200(peut-être 201) pour compter le nombre de personnes ayant le même âge en une seule itération. Ici, l'indice moyen de l'âge. Après cela, il est un morceau de gâteau pour trouver les 100 plus grand nombre. Par la façon dont cette algo est appelé comptage tri.

De toute façon, faire de la question plus spécifique et la plus claire qui est bon pour vous, dans une interview.
- Très bons points. Personne d'autre n'a demandé ou indiqué quelque chose à propos de la répartition de ces chiffres - il pourrait faire toute la différence dans la façon d'aborder le problème.
- J'aimerais que cette réponse assez pour étendre. Lire les nombres un temps pour obtenir les valeurs min/max, de sorte que vous pouvez supposer que la distribution. Puis, prendre l'une des deux options. Si la plage est assez petite, construire un tableau où vous pouvez simplement cocher les numéros à mesure qu'ils surviennent. Si la plage est trop grande, utilisez le tri algorithme de segment discuté ci-dessus.... Juste une pensée.
- Je suis d'accord, en posant la question du retour à l'interviewer en effet fait beaucoup de différence. En fait, une question telle que vous êtes limité par la puissance de calcul ou non, peut également vous aider à paralléliser la solution à l'aide de plusieurs nœuds de calcul.
- Pas besoin de passer par l'ensemble de la liste. Assez pour l'échantillonnage d'une fraction (par exemple, un million) de l'aléatoire des membres de la liste pour obtenir des statistiques utiles.
- Pour ceux qui n'auraient pas pensé à cette solution, je vous recommande de lire sur le comptage, le tri en.wikipedia.org/wiki/Counting_sort. C'est en fait assez commun, les questions de l'entrevue: vous pouvez trier un tableau de mieux que O(nlogn). Cette question est juste de la prolonger.
InformationsquelleAutor jin
69

Vous pouvez effectuer une itération sur les numéros qui prend O(n)

Chaque fois que vous trouvez une valeur plus grande que le minimum actuel, ajouter la nouvelle valeur à une circulaire de la file d'attente à la taille 100.

Le min de file d'attente circulaire est votre nouvelle valeur de comparaison. Maintenir sur l'ajout de la file d'attente. Si complet, extraire le minimum de la file d'attente.
- Cela ne fonctionne pas. par exemple, trouver dans le top 2 de {1, 100, 2, 99} donnera {100,1} comme les 2 premiers.
- Vous ne pouvez pas me résoudre à en contenir la file d'attente de tri. (si vous n'avez pas envie de chercher le trou de la file d'attente à chaque fois pour le côté le plus petit élément)
- Partielle de tri, comme dans un segment de mémoire est suffisante. Voir Ron de Guichets de la réponse.
- Oui, j'ai silencieusement à supposer qu'un extrait min de file d'attente est mise en œuvre comme un tas.
- Au lieu d'une circulaire de la file d'attente d'utilisation min tas de taille 100, ce qui aura un minimum de cent numéro en haut. Cela permettra de ne prendre que O(log n) pour les insérer en tant que par rapport à o(n) en cas de file d'attente
- Comment trouvez-vous la prochaine min une fois le min a été banni?
InformationsquelleAutor Regenschein
32

J'ai réalisé que c'est taggés avec "algorithme", mais va jeter quelques autres options, car il devrait également être étiqueté "entretien".

Quelle est la source de la 1 milliards de chiffres? Si c'est une base de données, puis "select valeur from table order by desc limit 100' faire le travail très bien, - il pourrait y avoir des différences dialectales.

Est-ce un one-off, ou quelque chose qui va être répété? En cas de récidive, à quelle fréquence? Si c'est un one-off et les données sont dans un fichier, puis "chat srcfile | tri (les options nécessaires) | tête -100' vous permettra de vous faire rapidement un travail productif que vous êtes payé pour le faire alors que l'ordinateur gère cette petite corvée.

Si elle est répétée, vous conseille cueillette toute bonne approche pour obtenir la réponse initiale et store /cache les résultats de sorte que vous pourriez être en permanence en mesure de faire rapport dans le top 100.

Enfin, il y a cette considération. Vous êtes à la recherche d'un emploi de niveau d'entrée et une entrevue avec un geek manager ou futur co-travailleur? Si oui, alors vous pouvez jeter toutes sortes d'approches décrivant la technique relative des avantages et des inconvénients. Si vous êtes à la recherche pour plus de gestion de l'emploi, puis l'aborder comme un gestionnaire, concernés par le développement et les coûts de maintenance de la solution, et de dire "merci beaucoup" et de laisser si c'est l'interviewer veut se concentrer sur CS de trivia. Il et vous serait probablement pas beaucoup d'avancement du potentiel.

Meilleure chance la prochaine entrevue.
- Exceptionnel réponse. Tout le monde s'est concentré sur le côté technique de la question, alors que cette réponse s'attaque à l'entreprise sociale d'une partie d'elle.
- Je n'aurais jamais imaginé que vous pourriez dire merci et de laisser une interview, et ne pas attendre qu'elle se termine. Merci pour l'ouverture de mon esprit.
- Pourquoi ne peut-on pas créer un tas de milliards d'éléments et d'en extraire les 100 plus grands éléments. De cette façon, coût = O(milliards d'euros) + 100*O(log(milliards de dollars)) ??
InformationsquelleAutor Fred Mitchell
17

Ma réaction immédiate pour ce qui serait d'utiliser un segment, mais il y a moyen d'utiliser QuickSelect sans garder toutes les valeurs d'entrée à portée de main à tout moment.

Créer un tableau de taille 200 et de le remplir avec les 200 premières valeurs d'entrée. Exécuter QuickSelect et jetez le bas 100, vous laissant avec 100 places de parking libres. Lire dans les 100 prochaines valeurs d'entrée et exécuter QuickSelect de nouveau. Continuer jusqu'à ce que vous avez exécuté si l'ensemble de l'entrée en lots de 100.

À la fin vous avez le top 100 des valeurs. Pour N valeurs que vous avez exécuté QuickSelect à peu près N/100 fois. Chaque Quickselect coût d'environ 200 fois une constante, de sorte que le coût total est 2N fois une constante. Cela ressemble linéaire en la taille de l'entrée, pour moi, quelle que soit la taille de paramètre que je suis brancher à 100 dans cette explication.
- Vous pouvez ajouter un petit mais peut-être important d'optimisation: Après l'exécution de QuickSelect à une partition de la taille de 200 tableau, le minimum dans le top 100 des éléments est connu. Puis, lors d'une itération sur l'ensemble du jeu de données, il suffit de compléter le bas de 100 valeurs si la valeur actuelle est plus grande que le minimum actuel. Une simple mise en œuvre de cet algorithme en C++ est sur le pair avec libstdc++de partial_sort exécuter directement sur un ensemble de données de 200 millions de 32 bits int (créé par un MT19937, uniformément distribués).
- Bonne idée - n'affecte pas la pire cas l'analyse, mais regarde bien la peine de le faire.
- Il vaut la peine d'essayer et je vais le faire, merci!
- C'est exactement ce que Goyave l' Ordering.greatestOf(Iterable, int) ne. Il est absolument linéaire en temps et en un seul passage et il est super mignon algorithme. FWIW, nous avons aussi quelques points de repère: ses facteurs constants sont un poil plus lent que la traditionnelle file d'attente de priorité dans la moyenne des cas, mais cette mise en œuvre est beaucoup plus résistant à la le "pire des cas" d'entrée (par exemple, strictement croissant d'entrée).
InformationsquelleAutor mcdowella
15

Vous pouvez utiliser Sélection rapide de l'algorithme pour trouver le numéro(par ordre) index [milliards de dollars-101]
et puis itérer sur les nombres et pour trouver les numéros qui biger à partir de ce numéro.
```
array={...the billion numbers...} 
result[100];

pivot=QuickSelect(array,billion-101);//O(N)

for(i=0;i<billion;i++)//O(N)
   if(array[i]>=pivot)
      result.add(array[i]);
```
Cet algorithme est la suivante: 2 X O(N) = O(N) (Moyenne des performances)

La deuxième option comme Thomas Jungblut suggérer:

Utilisation Tas la construction de la MAXI tas prendre en O(N),puis le top 100 max numéros seront en haut de l'échelle, tous vous avez besoin est de les mettre dans le tas(100 X O(Log(N)).

Cet algorithme est la suivante:O(N) + 100 X O(Log(N)) = O(N)
- Vous travaillez à travers l'ensemble de la liste à trois reprises. 1 bio. les entiers sont environ 4 go, que feriez-vous si vous ne peut pas tenir dans la mémoire? quickselect est le pire choix possible dans ce cas. L'itération d'une fois et de garder un tas de le top 100 des articles est à mon humble avis la solution la plus performante en O(n) (notez que vous pouvez couper en O(log n) des tas de soupapes n dans le tas est 100 = constante = très petit).
- Même si elle est encore O(N), faisant deux QuickSelects et une autre analyse linéaire est beaucoup plus de ressources que nécessaire.
- C'est du PSEUDO-code, toutes les solutions ici prendra plus de temps(O (NLOG(N) ou 100*O(N) )
- 100*O(N) (si c'est une syntaxe valide) = O(100*N) = O(N) (certes 100 peut être variable, si oui, ce n'est pas strictement vrai). Oh, et Quickselect a pire des cas, la performance de O(N^2) (ouch). Et si elle ne rentre pas dans la mémoire, vous serez en rechargeant les données à partir du disque deux fois, ce qui est bien pire qu'une fois (ce qui est le goulot d'étranglement).
- Il y a le problème que cela est prévu, la durée, et pas le pire des cas, mais en utilisant un décent de pivot de la stratégie de sélection (par exemple, choisir de 21 éléments au hasard, et choisir la médiane de ces 21 comme pivot), puis le nombre de comparaisons peuvent être garanties avec une forte probabilité d'être au plus (2+c)n pour un arbitrairement petite constante c.
- C'est une sorte de remarquable que le consensus est réellement le problème de mal. En modifiant la quickselect algorithme de choisir un pivot avec prévu de haut rang, cela pourrait même être fait pour courir dans n(1+c)+o(n) comparaisons pour une arbitrairement petite c.
- Votre complexité est mal. Pour le tas il est O(n * log k), où n est le nombre d'entiers, et k est le nombre d'éléments du haut à trouver. C'est une énorme différence à 100 * O(n) quoi que cela signifie.
- G toujours O(2Klog(N) + N) = O(N) et si k=100, dans votre cas, 200log(N) + N>> 100log(N) + N
- Oui, ils sont à la fois linéaire, mais le vôtre est deux fois plus lent en moyenne, et quadratique pire des cas. Notez que quickselect est 2N (fait une erreur ci-dessus) et 100log(N) + N << 2N.
InformationsquelleAutor One Man Crew
10

Bien que les autres quickselect solution a été downvoted, le fait demeure que quickselect trouverez la solution plus rapide que l'utilisation d'une file d'attente de taille 100. Quickselect a prévu un temps de course de 2n + o(n), en termes de comparaisons. Très simplement la mise en œuvre serait
```
array = input array of length n
r = Quickselect(array,n-100)
result = array of length 100
for(i = 1 to n)
  if(array[i]>r)
     add array[i] to result
```
Cela va prendre 3n + o(n) comparaisons en moyenne. En outre, il peut être plus efficace en utilisant le fait que quickselect va laisser la plus grande de 100 articles dans la matrice de dans la de 100 la droite-la plupart des endroits. Donc, en fait, le temps de fonctionnement peut être amélioré à 2n+o(n).

Il y a le problème que cela est prévu, la durée, et pas le pire des cas, mais en utilisant un décent de pivot de la stratégie de sélection (par exemple, choisir de 21 éléments au hasard, et choisir la médiane de ces 21 comme pivot), puis le nombre de comparaisons peuvent être garanties avec une forte probabilité d'être au plus (2+c)n pour un arbitrairement petite constante c.

En effet, en utilisant un échantillonnage optimisé stratégie (par exemple, l'échantillon sqrt(n) éléments au hasard, et choisir le 99e percentile), le temps d'exécution peut être obtenu vers le bas (1+c)n + o(n) pour arbitrairement petite c (en supposant que K, le nombre d'éléments à sélectionner o(n)).

Sur l'autre main, à l'aide d'une file d'attente de taille 100 exigera O(log(100)n) comparaisons, et le logarithme de base 2 de 100 est approximativement égale à 6,6.

Si nous pensons à ce problème dans les plus abstraits sens de choisir le plus grand K éléments d'un tableau de taille N, où K=o(N) mais les deux K et N va à l'infini, alors le temps d'exécution de la quickselect version sera en O(N) et la file d'attente de la version O(N log K), donc dans ce sens quickselect est aussi asymptotiquement supérieur.

Dans les commentaires, il a été mentionné que la file d'attente de solution sera exécuté dans le délai prévu N + K log N aléatoires d'entrée. Bien sûr, le hasard d'entrée hypothèse n'est jamais valide, à moins que la question des états explicitement. La file d'attente de solution pourrait être fait pour parcourir le tableau dans un ordre aléatoire, mais cela devra assumer le coût supplémentaire de N appels à un générateur de nombre aléatoire comme permutant l'ensemble de l'entrée de tableau ou d'autre allouer un nouveau tableau de longueur N contenant au hasard des indices.

Si le problème n'est pas de vous permettre de déplacer les éléments dans le tableau d'origine, et le coût de l'allocation de mémoire est élevée, afin de dupliquer le tableau n'est pas une option, c'est une question différente. Mais strictement en termes de temps d'exécution, c'est la meilleure solution.
- Votre dernier paragraphe est le point clé: avec un milliard de chiffres, il n'est pas possible de tenir toutes les données en mémoire ou pour permuter les éléments qui nous entourent. (Au moins c'est comment je interpréter le problème, étant donné que c'était une question d'entrevue.)
- En tout algorithmique question, si la lecture des données est un problème, il doit être mentionné dans la question. La question des états "étant donné un tableau" n'est pas "donné un tableau sur le disque qui ne rentre pas dans la mémoire et ne peut pas être manipulée selon le modèle de von neuman, qui est le standard dans l'analyse des algorithmes". Ces jours, vous pouvez obtenir un ordinateur portable avec 8gigs de ram. Je ne suis pas sûr d'où l'idée de la tenue d'un milliard de numéros dans la mémoire n'est pas faisable vient de. J'ai plusieurs milliards de chiffres en mémoire sur mon poste de travail dès maintenant.
- Pour info le Pire cas d'exécution de quickselect est O(n^2) (voir la section en.wikipedia.org/wiki/Quickselect), et il modifie également l'ordre des éléments dans le tableau d'entrée. Il est possible d'avoir un pire cas O(n) de la solution, avec une très grande constante (en.wikipedia.org/wiki/Median_of_medians).
- Le pire des cas de quickselect est infiniment peu probable que cela arrive, ce qui signifie que pour des raisons pratiques, ce n'est pas pertinent. Il est facile de modifier quickselect de sorte que, avec une haute probabilité que le nombre de comparaisons (2+c)n+o(n) pour arbitrairement petite c.
- "le fait demeure que quickselect trouverez la solution plus rapide que l'utilisation d'une file d'attente de taille 100" — Nan. Le tas solution prend environ N + Klog(N) comparaisons versus 2N moyenne pour quickselect et 2,95 Médian des Médianes. Il est clairement plus rapide pour le K.
- Je pense que vous voulez dire N + N log K.
- Nope, Klog(N). Vous devez estimer le nombre d'éléments reconnus dans le tas, qui est en fait K(digamma(N) - digamma(K)), ce qui est un peu Klog(N).
- Aha. N'ai pas pensé à ça. Bon point. En deviner la file d'attente est plus rapide, après tout. Une modification de la quickselect peuvent être conçus pour fonctionner en n+o(n) (par le choix d'un très grand pivot), mais il semble que la file d'attente sera probablement encore plus vite, au moins pour K suffisamment petit.
- Le plus rapide, vous pouvez obtenir quickselect (en moyenne) pour aller a 2 comparaisons par élément. Considérez que, même si les pivots sont à l'exact médiane, vous êtes à la réduction de moitié de la taille de la liste à chaque fois. Ensuite, vous avez sous-liste de tailles de 1 + 1/2 + 1/4 + 1/8... jusqu'à ce que vous trouver le désiré ordre statistique.
- Si vous êtes à la recherche d'un très haut rang de l'élément, vous pouvez obtenir plus rapidement. Par exemple, prenez un échantillon de taille sqrt(n), à les trier, et de choisir l'élément à la 99e centile comme pivot. En moyenne, vous allez vous retrouver avec seulement 1% des éléments lors de l'appel récursif (en supposant que K/N<<0,01 et donc, il est sûr de supposer que la Kième élément sera dans la partie supérieure de la partition).
- Belle idée. Je me demande quel est le nombre moyen de comparaisons. Je pense que la récidive est d'environ T(n) = T(sqrt(n)) + n + 0.5 sqrt(n)log(n). Quelle est la méthode maître mot à dire?
- Pour K assez petit, le nombre de comparaisons peut être obtenu vers le bas auxquelque chose comme n+O(sqrt n log n), peut-être même n + O(sqrt(n)). Quand il y a un seul (ou un nombre constant) de sublinéaire appel récursif, alors vous n'avez pas vraiment besoin de le maître théorème. Les appels rétrécir aussi rapidement que seule la première personne se montre dans la somme. Dans l'ensemble, il semble que la file d'attente de la technique de courir plus vite jusqu'à K=sqrt(n) ou peut-être K=sqrt(n)log(n). Pour K>N^(1/2+c) je pense qu'une version de quickselect peut être conçu pour aller plus vite.
- Venez pour penser à elle, je ne suis pas sûr de votre racine carrée de la solution fonctionne. Par exemple, si vous essayez d'avoir le 99e percentile et vous dessinez sqrt(n) de nombres, et de choisir le 99e percentile de ceux-ci, la moitié du temps, vous aurez la remise des gaz. Dans ce cas, lorsque vous partition de l'ensemble de la liste de n nombres, vous découvrirez que vous avez à la recherche de la plus grande partition contenant 99% des éléments. Je suis de retour à croire quickselect ne pouvez pas faire mieux que 2n comparaisons dans la moyenne des cas. Si vous avez raison, il peut aller plus vite, vous devriez être capable de trouver une référence.
- L'hypothèse était que Y<<n*0.01. Vous ne choisissez pas exactement la même fraction que Y, vous laisser un peu de mou. Donc, si vous voulez vraiment la 99e rang centile, ensuite vous choisissez (dire) la 98e rang centile de l'échantillon en tant que pivot. Si vous êtes familier avec l'analyse des algorithmes randomisés cela ne devrait pas être trop controversé. Essayer de googler "stratégie d'échantillonnage quickselect" par exemple researchgate.net/publication/... pdf.aminer.org/000/268/654/...
- NICE. On dirait que vous avez raison. Je me demande combien de comparaisons que vous devez en moyenne en fonction de n et k.
- J'ai pensé à quelque chose d'autre. Le N+KlogN lié pour l'utilisation d'une file d'attente suppose que l'entrée est aléatoire, qui n'est presque jamais une hypothèse sûre. Bien sûr, vous pouvez parcourir l'entrée dans un ordre aléatoire, mais cela nécessite de N appels à un générateur de nombre aléatoire plus, soit en réorganisant l'ensemble de l'entrée de tableau, ou d'allouer un nouveau tableau d'indices de la taille de N. je pense que je suis de retour à la pensée que quickselect est mieux pour la plupart des valeurs de K, même si K<sqrt(N).
InformationsquelleAutor mrip
5

prendre les 100 premiers numéros de l'milliards de dollars et les trier. maintenant, juste itérer à travers des milliards de dollars, si le nombre est supérieur au plus petit des 100, insérer dans l'ordre de tri. Ce que vous vous retrouvez avec quelque chose de beaucoup plus proche de O(n) sur la taille de l'ensemble.
- oups n'ai pas vu la réponse plus détaillée que la mienne.
- Prendre la première à 500 numéros et seulement s'arrêter à trier (et jeter le bas 400) lorsque la liste est pleine. (Et il va sans dire que vous avez ensuite seulement ajouter à la liste si le nouveau numéro est > le plus faible dans la sélection de 100).
InformationsquelleAutor Samuel Thurston
4

Deux options:

(1) Tas (priorityQueue)

Maintenir un min-tas avec une taille de 100. Parcourir le tableau. Une fois que l'élément est plus petit que le premier élément dans le tas, il faut le remplacer.
```
InSERT ELEMENT INTO HEAP: O（log100）
compare the first element: O(1)
There are n elements in the array, so the total would be O(nlog100), which is O(n)
```
(2) Carte-réduction de modèle.

Ceci est très similaire à word count exemple dans hadoop.
La carte de l'emploi: compter chaque élément de la fréquence ou de temps est apparu.
Réduire: Obtenir le meilleur K de l'élément.

Habituellement, je donnerais le recruteur deux réponses. Leur donner ce qu'ils veulent. Bien sûr, la carte de réduire le codage serait de main-certains parce que vous devez connaître tous les paramètres exacts. Pas de mal à le pratiquer.
Bonne Chance.
- +1 pour MapReduce, je ne peux pas croire que vous étiez le seul à mentionner Hadoop pour un milliard de chiffres. Que faire si l'interviewer a demandé pour 1k milliards de chiffres? Vous méritez plus de votes à mon avis.
- Burcea Merci beaucoup. Je ne valeur MapReduce trop. 🙂
- Bien que la taille de 100 est constante dans cet exemple, vous devriez vraiment généraliser cela à une variable distincte ie. k. Comme 100 est aussi constant que 1 milliard de dollars, alors pourquoi avez-vous donné la taille de l'ensemble d'un nombre variable de taille de n, et non pas pour le plus petit ensemble de nombres? Vraiment votre complexité doit être O(nlogk) qui n'est pas O(n).
- Oui. En effet, vous êtes à partir de votre point de vue. J'ai été de répondre à la question. La question est de trouver les 100 plus grands nombres de 1 milliard de nœuds. Le temps de la complexité est O(nlogk). Comparer 1 milliards de, de 100 est trivial, donc je peux dire que c'est de O(n), car n'importe quel n, k sera toujours 100. L'augmentation de la quantité ou de la portée est trivial.
- Mais mon point est que si vous êtes juste de répondre à la question, 1 milliard de dollars est également fixé dans la question, alors pourquoi généraliser, 1 milliards à n et pas 100 k. Suivant votre logique, la complexité devrait en fait être O(1) en raison à la fois de 1 milliard et 100 sont résolus dans cette question.
- Tous les droits. O(nlogk) Il est seulement un facteur qui aura une incidence sur les résultats. Cela signifie que, si n augmente de plus en plus grandes, le "niveau" augmente de manière linéaire. Ou nous pouvons dire que, même compte tenu de billions de dollars de chiffres, je peux encore obtenir des 100 plus grands nombres. Cependant, vous ne pouvez pas dire: Avec l'augmentation de n, le k est croissante, de sorte que le k influent sur le résultat. C'est pourquoi j'utilise O(nlogk) mais pas en O(nlogn)
- Je n'ai jamais dit que c'était O(nlogn), je n'ai jamais dit qu'il devrait être O(nlogk) non O(n) (qui est ce que vous avez initialement déclaré qu'il a été, ce qui est faux à 100 (k) est aussi variable que 1 milliard de dollars (n) est dans cette question)
InformationsquelleAutor Chris Su
4

Une solution très simple serait de parcourir le tableau de 100 fois. Qui est O(n).

Chaque fois que vous tirez le plus grand nombre (et le changement de sa valeur à la valeur minimale, de sorte que vous ne le voyez pas dans la prochaine itération, ou de garder la trace des indices de réponse à la question précédente (en gardant la trace des indices du tableau original peut avoir plusieurs fois le même nombre)). Après 100 itérations, vous avez les 100 plus grands nombres.
- Deux inconvénients: (1) Vous êtes en détruisant l'entrée dans le processus - c'est de préférence à éviter. (2) Vous allez à travers le tableau plusieurs fois, si le tableau est stocké sur le disque et ne peut pas tenir en mémoire, ce qui pourrait facilement être presque 100 fois plus lente que la accepté de répondre. (Oui, ils sont tous les deux O(n), mais quand même)
- Bon appel @Dukeling, j'ai ajouté un libellé supplémentaire sur la façon d'éviter de modifier l'entrée d'origine en gardant la trace de la réponse précédente indices. Ce qui serait encore assez facile à coder.
- Un brillant exemple de O (n) solution qui est beaucoup plus lent que O (n log n). log2 (1 milliard) est à seulement 30...
- Quelle est la taille de la constante cachée en O(n log n)?
InformationsquelleAutor James Oravec

Inspiré par @ron de guichets de la réponse, voici un barebones programme C de faire ce que vous voulez.

#include <stdlib.h>
#include <stdio.h>

#define TOTAL_NUMBERS 1000000000
#define N_TOP_NUMBERS 100

int 
compare_function(const void *first, const void *second)
{
    int a = *((int *) first);
    int b = *((int *) second);
    if (a > b){
        return 1;
    }
    if (a < b){
        return -1;
    }
    return 0;
}

int 
main(int argc, char ** argv)
{
    if(argc != 2){
        printf("please supply a path to a binary file containing 1000000000"
               "integers of this machine's wordlength and endianness\n");
        exit(1);
    }
    FILE * f = fopen(argv[1], "r");
    if(!f){
        exit(1);
    }
    int top100[N_TOP_NUMBERS] = {0};
    int sorts = 0;
    for (int i = 0; i < TOTAL_NUMBERS; i++){
        int number;
        int ok;
        ok = fread(&number, sizeof(int), 1, f);
        if(!ok){
            printf("not enough numbers!\n");
            break;
        }
        if(number > top100[0]){
            sorts++;
            top100[0] = number;
            qsort(top100, N_TOP_NUMBERS, sizeof(int), compare_function);
        }

    }
    printf("%d sorts made\n"
    "the top 100 integers in %s are:\n",
    sorts, argv[1] );
    for (int i = 0; i < N_TOP_NUMBERS; i++){
        printf("%d\n", top100[i]);
    }
    fclose(f);
    exit(0);
}

Sur ma machine (core i3 avec une rapide SSD), il prend 25 secondes, et 1724 sortes.
J'ai généré un fichier binaire avec dd if=/dev/urandom/count=1000000000 bs=1 pour cette course.

Évidemment, il y a des problèmes de performances avec la lecture de seulement 4 octets à la fois - à partir du disque, mais c'est pour l'exemple du saké. Sur le côté positif, très peu de mémoire est nécessaire.

InformationsquelleAutor

1

La solution la plus simple consiste à analyser les milliards de chiffres grand tableau et maintenez-les 100 plus grandes valeurs trouvées jusqu'à présent dans un petit tableau tampon sans aucun tri et n'oubliez pas la plus petite valeur de ce tampon. J'ai d'abord pensé que cette méthode a été proposée par fordprefect mais dans un commentaire, il dit qu'il a assumé les 100 nombre de structure de données à la mise en œuvre d'un tas. Chaque fois qu'un nouveau numéro est trouvé qui est plus grand que le minimum dans la mémoire tampon est remplacée par la nouvelle valeur trouvée et la mémoire tampon est recherché pour le minimum actuel de nouveau. Si les chiffres en milliards de dollars numéro de tableau sont distribués de façon aléatoire, la plupart du temps la valeur à partir de la vaste gamme est comparée à la valeur minimale de la petite matrice et jetés. Pour une très petite fraction de nombre, la valeur doit être inséré dans le petit tableau. Donc la différence de la manipulation de la structure de données en tenant le petit nombre peut être négligée. Pour un petit nombre d'éléments qu'il est difficile de déterminer si l'utilisation d'une file d'attente de priorité est effectivement plus rapide que d'utiliser mon approche naïve.

Je veux estimer le nombre de plaquettes dans le petit 100 élément de la matrice de mémoire tampon lorsque le 10^9 élément de tableau est analysé. Le programme analyse les 1000 premiers éléments de ce grand tableau et a insérer au plus de 1000 éléments dans la mémoire tampon. La mémoire tampon contient 100 élément de 1000 éléments numérisés, c'est-à 0.1 de l'élément analysé. Donc, nous supposons que la probabilité pour qu'une valeur dans le grand tableau est plus grand que le minimum actuel de la mémoire tampon est d'environ 0,1 Tel élément doit être inséré dans la mémoire tampon . Maintenant, le programme scanne le prochain 10^4 éléments à partir de la vaste gamme. Parce que la valeur minimale de la mémoire tampon augmente chaque fois qu'un nouvel élément est inséré. Nous avons estimé que le ratio d'éléments plus grande que le minimum actuel est d'environ 0,1 et donc il y a 0.1*10^4=1000 éléments à insérer. En fait le nombre d'éléments qui sont insérés dans le tampon sera plus petite. Après l'analyse de ce 10^4 éléments fraction des nombres dans la mémoire tampon sera d'environ 0,01 des éléments analysés jusqu'à présent. Donc, lors de la numérisation de la prochaine 10^5 numéros, nous supposons que pas plus de 0,01*10^5=1000 sera inséré dans la mémoire tampon. La poursuite de cette argumentation, nous avons inséré environ 7000 valeurs après la numérisation 1000+10^4+10^5+...+10^9 ~ 10^9 les éléments de la grand tableau.
Donc, lors de la numérisation d'un tableau avec 10^9 éléments de taille aléatoire nous nous attendons à ce que pas plus de 10^4 (=7000 arrondi à la hausse) des insertions dans la mémoire tampon. Après chaque insertion dans la mémoire tampon du nouveau minimum doit être trouvé. Si le tampon est un simple tableau que nous avons besoin de 100 comparaison pour trouver le nouveau minimum. Si le tampon est une autre structure de données (comme un segment de mémoire), nous avons besoin d'au moins 1 comparaison pour trouver le minimum. Pour comparer les éléments de la grand tableau que nous avons besoin de 10^9 comparaisons. Donc dans l'ensemble nous avons besoin d'environ 10^9+100*10^4=1.001 * 10^9 comparaisons lors de l'utilisation d'un tableau en mémoire tampon et d'au moins 1.000 * 10^9 comparaisons lors de l'utilisation d'un autre type de structure de données (comme un segment de mémoire). Donc, en utilisant un tas apporte qu'un gain de 0,1% si le rendement est déterminé par le nombre de comparaison.
Mais qu'est-ce que la différence de temps d'exécution entre l'insertion d'un élément dans un 100 élément de segment et le remplacement d'un élément dans un 100 élément de tableau et de trouver son nouveau minimum?
- Au niveau théorique: Comment faire de nombreuses comparaisons sont nécessaires pour l'insertion dans un tas. Je sais que c'est O(log(n)), mais de quelle taille est le facteur constant? Je
- Au niveau de la machine: Quel est l'impact de la mise en cache et de la direction de la prévision sur le temps d'exécution d'un tas d'insertion et une recherche linéaire dans un tableau.
- Au niveau de mise en œuvre: Quels sont les coûts supplémentaires sont cachés dans un tas de structure de données fournies par une bibliothèque ou un compilateur?
Je pense que ce sont certaines des questions qui doivent être répondues avant on peut essayer d'estimer la véritable différence entre les performances d'un 100 élément de segment ou un 100 élément de tableau. Il serait donc judicieux de réaliser une expérience, et de mesurer la performance réelle.
- C'est ce que tas fait.
- G: Ce "qui"?
- Au sommet de la pyramide est l'élément minimum dans le tas, et de nouveaux éléments sont rejetées avec une comparaison.
- oui, mais un tas en fait plus: il permet l'insertion/retrait d'un élément nouveau et de trouver le nouveau minimum en O(log(n)) étapes. J'ai dit qu'un tas n'est pas nécessaire parce que: 1)qu'un petit nombre d'éléments sera inséré. 2) O-Notation ne dit rien sur la taille du facteur constant. Peut-être l'usage d'un 100 élément de tableau a presque les mêmes performances, alors le maintien d'un 100 élément du tas.
- Je comprends ce que vous dites, mais même si vous allez en termes absolus, le nombre de comparaisons plutôt que asymptotique nombre de comparaisons, le tableau est encore beaucoup plus lent, car le temps de "insérer un nouvel élément, jetez l'ancienne minimum, et de trouver de nouveaux" minimum est de 100 plutôt que sur 7.
- G: j'ai ajouté quelques estimations pour la performance, on peut donc voir qu'il y a seulement une différence de 0,1% dans le nombre de comparaisons dans cette situation particulière. Mais même pour la simple insertion d'un nouveau minimum, il n'est pas clair ce qui fonctionne mieux à la réalité pour les 100 éléments. J'ai ajouté quelques arguments. Même, je ne crois pas qu'il y a seulement environ 7 comparaisons dans le pire des cas: si une nouvelle valeur est insérée au niveau du nœud racine il doit y avoir au moins deux de comparaison de décider dans quel sous-arbre devrait être utilisé pour storeing la nouvelle valeur. nous avons donc environ 14 comparaisons.
- D'accord, mais votre estimation est très rond-point. Vous pouvez calculer directement le nombre de plaquettes pour k(digamma(n) - digamma(k)), ce qui est moins que klog(n). En tout cas, à la fois le tas et la solution de matrice de passer une seule comparaison d'ignorer un élément. La seule différence est le nombre de comparaisons pour un élément inséré est de 100 pour votre solution, contre 14 pour le segment de mémoire (bien que la moyenne des cas est probablement beaucoup moins.)
InformationsquelleAutor miracle173
1
```
 Although in this question we should search for top 100 numbers, I will 
 generalize things and write x. Still, I will treat x as constant value.
```
Algorithme Plus x des éléments de n:

J'appelle la valeur de retour LISTE. C'est un ensemble de x éléments (à mon avis, que devrait être liée liste)
- X premiers éléments sont prises à partir de la piscine ", comme ils viennent" et classés dans la LISTE (ce qui est fait en temps constant puisque x est considérée comme constante O( x log(x) ) temps)
- Pour chaque élément qui vient ensuite, nous vérifions si il est plus grand que le plus petit élément dans la LISTE et si nous avons de la pop la plus petite et insérer l'élément courant de la LISTE. Depuis que est liste ordonnée de chaque élément doit trouver sa place en temps logarithmique (binaire de recherche) et depuis c'est la liste ordonnée d'insertion n'est pas un problème. Chaque étape est également fait en temps constant ( O(log(x) ) de temps ).
Alors, quel est le pire scénario?

x log(x) + (n-x)(log(x)+1) = nlog(x) + n - x

C'est donc O(n) fois pour le pire des cas. Le +1 est de vérifier si le nombre est plus grand que le plus petit dans la LISTE. Le temps prévu pour la moyenne des cas dépendra de mathématique de la distribution de ces n éléments.

Améliorations possibles

Cet algorithme peut être légèrement améliorée pour les pires scénarios, mais à mon humble avis (je ne peux pas prouver cette affirmation) que va se dégrader comportement moyen. Comportement asymptotique sera le même.

Amélioration de cet algorithme que nous n'allons pas vérifier si un élément est plus grand que le plus petit. Pour chaque élément, nous allons essayer de l'insérer et si elle est plus petite que la plus petite que nous allons en faire abstraction. Bien que cela semble absurde si l'on considère seulement le pire des cas on aura

x log(x) + (n-x)log(x) = nlog(x)

opérations.

Pour ce cas d'utilisation je ne vois pas d'autres améliorations. Pourtant, vous devez vous demander que faire si j'ai à le faire plus que log(n) fois et pour différents x-es? Évidemment, nous permettrait de trier ce tableau en O(n log(n)) et prendre notre x de l'élément chaque fois que nous en avons besoin.

InformationsquelleAutor Rouz
1

Cette question pourrait être répondu avec N log(100) de la complexité (au lieu de N log N) avec juste une ligne de code C++.
```
 std::vector<int> myvector = ...; //Define your 1 billion numbers. 
                                 //Assumed integer just for concreteness 
 std::partial_sort (myvector.begin(), myvector.begin()+100, myvector.end());
```
La réponse finale serait un vecteur où les 100 premiers éléments sont assurés d'être les 100 plus grand nombre d'entre vous de tableau, tandis que les autres éléments sont non ordonnée

C++ STL (standard library) est très pratique pour ce genre de problèmes.

Note: je ne dis pas que c'est la solution optimale, mais il aurait sauvé votre entrevue.

InformationsquelleAutor Vivian Miranda
1

La solution la plus simple serait d'utiliser une file d'attente de priorité, en ajoutant les 100 premiers numéros de la file d'attente et de maintenir le plus petit numéro dans la file d'attente, puis une itération à travers les milliards d'autres numéros, et à chaque fois que nous en trouver un qui est plus grand que le plus grand nombre dans la file d'attente de priorité, nous avons supprimer le plus petit nombre, ajouter le nouveau numéro, et encore conserver la trace du plus petit numéro dans la file d'attente.

Si les numéros ont été dans un ordre aléatoire, ce beau parce que nous parcourir un milliard de nombres aléatoires, il est très rare que le prochain numéro est parmi les 100 plus importantes à ce jour. Mais le nombre ne peut pas être le hasard. Si le tableau est déjà trié dans l'ordre croissant puis nous toujours insérer un élément à la file d'attente de priorité.

Nous choisissons donc dire 100 000 aléatoire numéros à partir du tableau en premier. Pour éviter d'accès aléatoire qui peut être lente, nous ajoutons dire 400 groupes aléatoires de 250 numéros consécutifs. Avec que la sélection aléatoire, nous pouvons être tout à fait sûr que très peu de numéros restants sont dans le top cent, de sorte que le temps d'exécution sera très proche de celui d'une simple boucle de comparaison d'un milliard de dollars certaine valeur maximale.

InformationsquelleAutor gnasher729
1

Trouver le top 100 de un milliard de chiffres est mieux de le faire à l'aide de min-tas de 100 éléments.

Premier min-tas avec les 100 premiers nombres rencontrés. min-tas magasin le plus petit des 100 premiers numéros à la racine (en haut).

Maintenant, comme vous allez le long, le reste des numéros seulement de les comparer avec la racine (la plus petite de l'100).

Si le nouveau numéro de produit est plus grand que la racine de min-tas de remplacer la racine avec ce numéro contraire l'ignorer.

Dans le cadre de l'insertion d'un nouveau numéro en min-tas le plus petit nombre dans le tas viendra à la racine).

Une fois que nous avons traversé tous les chiffres qui nous aura le plus grand nombre à 100 numéros dans le min-tas.

InformationsquelleAutor imsaar

J'ai rédigé une solution simple en Python dans le cas où quelqu'un est intéressé. Il utilise le bisect module et un retour temporaire de la liste qu'il garde triés. Ceci est similaire à une file d'attente de priorité de mise en œuvre.

import bisect

def kLargest(A, k):
    '''returns list of k largest integers in A'''
    ret = []
    for i, a in enumerate(A):
        # For first k elements, simply construct sorted temp list
        # It is treated similarly to a priority queue
        if i < k:
            bisect.insort(ret, a) # properly inserts a into sorted list ret
        # Iterate over rest of array
        # Replace and update return array when more optimal element is found
        else:
            if a > ret[0]:
                del ret[0] # pop min element off queue
                bisect.insort(ret, a) # properly inserts a into sorted list ret
    return ret

Utilisation avec 100 000 000 d'éléments et les pires cas, l'entrée qui est une liste triée:

>>> from so import kLargest
>>> kLargest(range(100000000), 100)
[99999900, 99999901, 99999902, 99999903, 99999904, 99999905, 99999906, 99999907,
 99999908, 99999909, 99999910, 99999911, 99999912, 99999913, 99999914, 99999915,
 99999916, 99999917, 99999918, 99999919, 99999920, 99999921, 99999922, 99999923,
 99999924, 99999925, 99999926, 99999927, 99999928, 99999929, 99999930, 99999931,
 99999932, 99999933, 99999934, 99999935, 99999936, 99999937, 99999938, 99999939,
 99999940, 99999941, 99999942, 99999943, 99999944, 99999945, 99999946, 99999947,
 99999948, 99999949, 99999950, 99999951, 99999952, 99999953, 99999954, 99999955,
 99999956, 99999957, 99999958, 99999959, 99999960, 99999961, 99999962, 99999963,
 99999964, 99999965, 99999966, 99999967, 99999968, 99999969, 99999970, 99999971,
 99999972, 99999973, 99999974, 99999975, 99999976, 99999977, 99999978, 99999979,
 99999980, 99999981, 99999982, 99999983, 99999984, 99999985, 99999986, 99999987,
 99999988, 99999989, 99999990, 99999991, 99999992, 99999993, 99999994, 99999995,
 99999996, 99999997, 99999998, 99999999]

Il a fallu environ 40 secondes pour calculer ce pour 100 000 000 d'éléments, donc je suis peur de le faire pour 1 milliard de dollars. Pour être juste bien, j'ai été nourrir le pire des cas, l'entrée (ironiquement, un tableau est déjà trié).

InformationsquelleAutor Shashank

0

Je vois beaucoup de O(N) les discussions, j'ai donc proposer quelque chose de différent juste pour la pensée de l'exercice.

Est-il connu de l'information sur la nature de ces chiffres? Si c'est de l'aléatoire dans la nature, puis aller plus loin et de regarder les autres réponses. Vous n'aurez pas de meilleurs résultats qu'eux.

Cependant! Voir si quelle que soit la liste de remplir mécanisme peuplée que la liste dans un ordre particulier. Sont-ils dans un plan bien défini où vous pouvez savoir avec certitude que le plus grand de l'ampleur de numéros se trouvent dans une certaine région de la liste ou sur un certain intervalle? Il peut y avoir un motif pour cela. Si c'est le cas, par exemple, s'ils sont assurés d'être dans une sorte de distribution normale avec la caractéristique bosse dans le milieu, ont toujours répéter les tendances à la hausse parmi défini des sous-ensembles, ont une longue pic à un moment T dans le milieu du jeu de données, comme peut-être un cas de délit d'initié ou d'une défaillance de l'équipement, ou peut-être juste une "pointe" de chaque Nième nombre que dans l'analyse des forces après une catastrophe, vous pouvez réduire le nombre d'enregistrements que vous avez à vérifier de manière significative.

Il y a un peu de nourriture pour la pensée, de toute façon. Peut-être que ce sera vous aider à donner aux futurs enquêteurs une réponse réfléchie. Je sais que je serais impressionné si quelqu'un m'a posé cette question en réponse à un problème, ce serait me dire qu'ils sont de la pensée de l'optimisation. Il suffit de reconnaître qu'il peut ne pas toujours être possible d'optimiser.

InformationsquelleAutor djdanlib
0
```
Time ~ O(100 * N)
Space ~ O(100 + N)
```
1. Créer une liste vide de 100 logement vide
2. Pour chaque nombre dans la liste:
  - Si le nombre est plus petit que le premier, passez
  - Sinon le remplacer avec ce numéro
  - Ensuite, poussez le nombre adjacentes swap; jusqu'à ce qu'il est plus petit que le prochain
3. Retour la liste
Remarque: si le log(input-list.size) + c < 100, alors la meilleure façon est de trier les entrées-liste, puis divisés en premier 100 articles.

InformationsquelleAutor Khaled.K
0

La complexité est O(N)

D'abord créer un tableau de 100 entiers initialiaze le premier élément de ce tableau que le premier élément de la N des valeurs,
garder la trace de l'indice de l'élément en cours avec une autre variable, l'appeler CurrentBig

Itérer si les N valeurs
```
if N[i] > M[CurrentBig] {

M[CurrentBig]=N[i]; ( overwrite the current value with the newly found larger number)

CurrentBig++;      ( go to the next position in the M array)

CurrentBig %= 100; ( modulo arithmetic saves you from using lists/hashes etc.)

M[CurrentBig]=N[i];    ( pick up the current value again to use it for the next Iteration of the N array)

} 
```
une fois cela fait , la M matrice de CurrentBig 100 fois modulo 100 🙂
Pour l'étudiant: assurez-vous que la dernière ligne de code n'a pas d'atout valide les données juste avant le code quitte

InformationsquelleAutor Angelos Karageorgiou
0

Un autre algorithme O(n) -

L'algorithme recherche les 100 plus par élimination

pensez à tous les millions de numéros dans leur représentation binaire. Commencer à partir de l'octet le plus significatif. Si le bit de poids fort est à 1 peut être fait par une opération booléenne de multiplication avec un nombre approprié. Si il y a plus de 100 1 dans ces millions d'éliminer les autres chiffres avec des zéros. Maintenant le reste des numéros de procéder à la prochaine most significant bit. tenir le compte du nombre de numéros restants après l'élimination et continuer tant que ce nombre est plus grand que 100.

La principale opération booléenne peut être un rapprochement effectué sur les Gpu

InformationsquelleAutor Mystic monk
0

Je voudrais savoir qui a eu le temps de mettre un milliard de chiffres dans un tableau et de le congédier. Doit travailler pour le gouvernement. Au moins si vous aviez une liste, vous pouvez insérer un nombre dans le milieu, sans bouger d'un demi-milliard de dollars pour faire de la place. Encore mieux, un Arbre permet une recherche binaire. Chaque comparaison élimine la moitié de votre total. Un algorithme de hachage devrait vous permettre de remplir la structure de données comme un damier, mais pas très bon pour le peu de données. Comme il est de votre meilleur pari est d'avoir une solution de tableau de 100 entiers, et de suivre le nombre le plus faible de votre solution de tableau de sorte que vous pouvez le remplacer quand vous venez à travers un plus grand nombre dans le tableau d'origine. Vous devez examiner chaque élément dans le tableau d'origine, en supposant qu'il n'est pas triée pour commencer.

InformationsquelleAutor David Allan Houser Jr
0

Vous pouvez le faire dans O(n) temps. Juste parcourir la liste et de garder trace des 100 plus grand nombre vous avez vu à un moment donné et la valeur minimale de ce groupe. Lorsque vous trouvez un nouveau numéro plus grand que le plus petit de vos dix, puis le remplacer et mettre à jour votre nouvelle valeur min de l'100 (cela peut prendre un temps constant de 100 à déterminer ce à chaque fois que vous faites, mais cela n'affecte pas l'analyse globale).
- Cette approche est presque identique à la fois le plus et de deuxième-plus-upvoted réponses à cette question.
InformationsquelleAutor James Oravec
0

La gestion d'une liste distincte est du travail supplémentaire et vous devez déplacer des choses autour de l'ensemble de la liste à chaque fois que vous trouver un autre remplacement. Juste qsort et de prendre le top 100.
- -1 quicksort est O(n log n), qui est exactement ce que l'OP a fait et demande à l'améliorer. Vous n'avez pas besoin de gérer une liste séparée, seulement une liste de 100 numéros. Votre suggestion a aussi les fâcheux effets secondaires de la modification de la liste d'origine, ou en les copiant. C'est 4GiB ou alors, de mémoire, disparu.
InformationsquelleAutor Chris Fox
0
1. Utilisation nième élément pour obtenir le 100 ième élément de O(n)
2. De réitérer la deuxième fois, mais une seule fois et de sortie de chaque élément qui est plus grand que cet élément spécifique.
Veuillez noter esp. la deuxième étape pourrait être facile à calculer en parallèle! Et il sera également efficace lorsque vous avez besoin d'un million de plus grands éléments.

InformationsquelleAutor math

C'est une question de Google ou quelque chose géants de l'industrie.Peut-être que le code suivant est le droit de réponse prévu par votre interlocuteur.
Le coût du temps et de l'espace des coûts dépendent du nombre maximum dans le tableau d'entrée.Pour 32-Bit int tableau d'entrée, L'espace maximal coût est de 4 * 125 millions d'Octets, le Temps coût est de 5 * Milliards de dollars.

public class TopNumber {
    public static void main(String[] args) {
        final int input[] = {2389,8922,3382,6982,5231,8934
                            ,4322,7922,6892,5224,4829,3829
                            ,6892,6872,4682,6723,8923,3492};
        //One int(4 bytes) hold 32 = 2^5 value,
        //About 4 * 125M Bytes
        //int sort[] = new int[1 << (32 - 5)];
        //Allocate small array for local test
        int sort[] = new int[1000];
        //Set all bit to 0
        for(int index = 0; index < sort.length; index++){
            sort[index] = 0;
        }
        for(int number : input){
            sort[number >>> 5] |= (1 << (number % 32));
        }
        int topNum = 0;
        outer:
        for(int index = sort.length - 1; index >= 0; index--){
            if(0 != sort[index]){
                for(int bit = 31; bit >= 0; bit--){
                    if(0 != (sort[index] & (1 << bit))){
                        System.out.println((index << 5) + bit);
                        topNum++;
                        if(topNum >= 3){
                            break outer;
                        }
                    }
                }
            }
        }
    }
}

InformationsquelleAutor Su Xiang

j'ai fait mon propre code,vous ne savez pas si sa ce que "l'enquêteur" il est à la recherche

private static final int MAX=100;
 PriorityQueue<Integer> queue = new PriorityQueue<>(MAX);
        queue.add(array[0]);
        for (int i=1;i<array.length;i++)
        {

            if(queue.peek()<array[i])
            {
                if(queue.size() >=MAX)
                {
                    queue.poll();
                }
                queue.add(array[i]);

            }

        }

InformationsquelleAutor Javier

0

Améliorations possibles.

Si le fichier contient 1 milliards le nombre, la lecture pourrait être vraiment longtemps...

À améliorer ce travail, vous pouvez :
- Diviser le fichier en n parties, de Créer des threads n, faire n threads regarder pour les 100 plus grands nombres dans leur partie du fichier (à l'aide de la file d'attente de priorité), et enfin obtenir les 100 plus grands numéros de tous les fils de sortie.
- Utiliser un cluster pour une telle tâche, avec une solution comme hadoop. Ici, vous pouvez diviser le fichier encore plus et la sortie plus rapide pour une 1 milliards de dollars (10^12) les numéros de fichier.
InformationsquelleAutor Maxime B.
0

Prendre d'abord les éléments de 1000 et ajoutez-les dans un tas max. Maintenant, prenez le premier maxi de 100 éléments et de les stocker quelque part. Choisissez maintenant à côté de 900 éléments du dossier et les ajouter dans le tas avec la dernière 100 plus élevé de l'élément.

Continuez à répéter ce processus de la cueillette jusqu'à 100 éléments dans le tas et l'ajout de 900 éléments du dossier.

Le choix final de 100 éléments vont nous donner le maximum de 100 éléments d'un milliard de dollars de chiffres.

InformationsquelleAutor Juvenik

-1

Ce code est pour trouver N plus grand nombre dans un non Triés tableau.

#include <iostream>


using namespace std;

#define Array_Size 5 //No Of Largest Numbers To Find
#define BILLION 10000000000

void findLargest(int max[], int array[]);
int checkDup(int temp, int max[]);

int main() {


        int array[BILLION] //contains data

        int i=0, temp;

        int max[Array_Size];


        findLargest(max,array); 


        cout<< "The "<< Array_Size<< " largest numbers in the array are: \n";

        for(i=0; i< Array_Size; i++)
            cout<< max[i] << endl;

        return 0;
    }




void findLargest(int max[], int array[])
{
    int i,temp,res;

    for(int k=0; k< Array_Size; k++)
    {
           i=0;

        while(i < BILLION)
        {
            for(int j=0; j< Array_Size ; j++)
            {
                temp = array[i];

                 res= checkDup(temp,max);

                if(res == 0 && max[j] < temp)
                    max[j] = temp;
            }

            i++;
        }
    }
}


int checkDup(int temp, int max[])
{
    for(int i=0; i<N_O_L_N_T_F; i++)
    {
        if(max[i] == temp)
            return -1;
    }

    return 0;
}

Cela pourrait ne pas être le plus efficace, mais fait le travail.

Espère que cette aide

"Cela pourrait ne pas être le plus efficace, mais fait le travail." std::nth_element(array, array+Array_Size, array+BILLION, std::greater<int>{}); fait le travail (de la part de l'élément array[Array_Size-1] contiendra les Array_Sizee plus grand élément, et tous les éléments suivants seront plus petit ou égal).

InformationsquelleAutor Umer Farooq

-1

Je sais que cela pourrait se faire enterrer, mais voici mon idée pour une variation sur un radix MSD.

pseudo-code:
```
//billion is the array of 1 billion numbers
int[] billion = getMyBillionNumbers();
//this assumes these are 32-bit integers and we are using hex digits
int[][] mynums = int[8][16];

for number in billion
    putInTop100Array(number)

function putInTop100Array(number){
    //basically if we got past all the digits successfully
    if(number == null)
        return true;
    msdIdx = getMsdIdx(number);
    msd = getMsd(number);
    //check if the idx above where we are is already full
    if(mynums[msdIdx][msd+1] > 99) {
        return false;
    } else if(putInTop100Array(removeMSD(number)){
        mynums[msdIdx][msd]++;
        //we've found 100 digits here, no need to keep looking below where we are
        if(mynums[msdIdx][msd] > 99){
           for(int i = 0; i < mds; i++){
              //making it 101 just so we can tell the difference
              //between numbers where we actually found 101, and 
              //where we just set it
              mynums[msdIdx][i] = 101;
           }
        }
        return true;
    }
    return false;
}
```
La fonction getMsdIdx(int num) serait de retour à l'index des chiffres plus importantes (non-nulle). La fonction getMsd(int num) aurait le plus de chiffre significatif. Le d'une fonction removeMSD(int num) permettrait de supprimer les plus importants chiffres d'un nombre et renvoie le nombre (ou de retourner la valeur null si il n'y avait rien à gauche, après le retrait de la plupart chiffre significatif).

Une fois cela fait, tout ce qui est à gauche, traverse mynums de saisir le top 100 des chiffres. Ce serait quelque chose comme:
```
int[] nums = int[100];
int idx = 0;
for(int i = 7; i >= 0; i--){
    int timesAdded = 0;
    for(int j = 16; j >=0 && timesAdded < 100; j--){
        for(int k = mynums[i][j]; k > 0; k--){
            nums[idx] += j;
            timesAdded++;
            idx++;
        }
    }
}
```
Je note que, bien que le ci-dessus ressemble, il est grand temps de la complexité, il va vraiment être autour de O(7*100).

Une rapide explication de ce que c'est d'essayer de faire:
Essentiellement de ce système est d'essayer d'utiliser tous les chiffres dans un 2d-tableau basé sur l'indice du chiffre dans le nombre, et le chiffre de la valeur. Il les utilise comme index de garder une trace de la façon dont de nombreux numéros de cette valeur ont été insérés dans le tableau. Lorsque 100 a été atteint, il ferme toutes les "branches".

Le temps de cet algorithme est quelque chose comme O(billion*log(16)*7)+O(100). Je peux me tromper à ce sujet. C'est très probablement ce qui nécessite une mise au point comme elle est un peu complexe et j'ai juste écrit sur le haut de ma tête.

EDIT: Downvotes sans explication ne sont pas utiles. Si vous pensez que cette réponse est incorrecte, veuillez laisser un commentaire pourquoi. Assez sûr que StackOverflow vous dit même à le faire lorsque vous downvote.

InformationsquelleAutor MirroredFate
-2

Problème: Trouver les m plus grands éléments de n éléments, n >>> m

La solution la plus simple, qui devrait être évident pour tout le monde est tout simplement m passe de l'algorithme de tri bubble.

puis d'imprimer les n derniers éléments de la matrice.

Cela ne nécessite aucune externes des structures de données, et utilise un algorithme que tout le monde le sait.

Cours d'exécution estimation du temps est O(m*n). La meilleure des réponses à ce jour est de O(n log(m)), donc cette solution n'est pas beaucoup plus cher pour les petites m.

Je ne dis pas que ce ne pouvait pas être amélioré, mais c'est de loin la solution la plus simple.
- Pas de données externes structures? Quel est le milliard de dollars numéro de tableau à trier? Un tableau de cette taille est une surcharge énorme dans les deux temps de remplir et d'espace pour stocker. Que faire si tous les "grands" nombres étaient au mauvais bout de la matrice? Vous auriez besoin de l'ordre de 100 milliards de dollars de swaps à "bulle" dans la position d'un autre grand frais généraux... Enfin, MN = 100 milliards de dollars vs MLog2(N) = 6.64 milliards de près de deux ordres de grandeur de différence. Peut-être re-pense que celui-ci. Un pass d'analyse, tout en maintenant une structure de données de plus grands nombres va considérablement effectuer cette démarche.
InformationsquelleAutor Chris Cudmore
-3

Récemment que j'ai adapté une théorie que tous les problèmes dans le monde pourrait être résolu en O(1). Et même celui-ci. Il n'était pas clair à partir de la question de savoir quelle est la gamme de nombres. Si les chiffres sont il varie de 1 à 10, puis probablement le top 100 des plus grands nombres de groupe de 10. La chance que le nombre le plus élevé sera pris sur les 1 milliards de chiffres lorsque le plus grand nombre est très faible, à comparer à 1 milliard sont très grands. Je voudrais donc donner cela comme une réponse dans cette interview.
- var testData = new int[1000000000];
InformationsquelleAutor Ilya Gazman

Vous devez vous connecter pour publier un commentaire.