Trouver un numéro où il apparaît exactement N/2 fois

Ici est l'une de mes questions de l'entrevue. Étant donné un tableau de N éléments et où un élément semble exactement N/2 fois et le reste N/2 éléments sont unique. Comment voulez-vous trouver l'élément avec un meilleur moment de l'exécution?

Rappeler les éléments ne sont pas triés et vous pouvez supposer que N est pair. Par exemple,

input array [] = { 10, 2, 3, 10, 1, 4, 10, 5, 10, 10 }

Voici donc 10 apparaît extactly 5 fois ce qui est N/2.

Je sais une solution à O(n) temps d'exécution. Mais toujours impatient de connaître une meilleure solution en O(log n).

On m'a dit dans l'interview, il y a une solution avec O(log n) 🙂 ..
Mais il semble que dans le pire des cas, cela ne pouvait pas être mieux que O(n)
Pouvez-vous expliquer ce que vous entendez par "un meilleur moment de l'exécution?"?
😀 T N de mesurer le nombre d'éléments ou le nombre de bits pour représenter les éléments. Si c'est le dernier, je pense que nous avons notre réponse!
mieux faire mieux que O(n)
son absence d'éléments de bien 😉
Êtes-vous sûr que nous ne savons rien d'autre sur ces éléments? Nous ne savons même s'ils sont des nombres ou pourraient-ils être arbitraire des éléments?
ils sont des nombres, mais peut être +ve/-ve
Vous ne savez pas si cela va sembler stupide, mais qu'allons-nous mesurer avec N? accès à des tableaux? les comparaisons entre les deux éléments? puis-je faire des maths sur deux éléments pour le "libre"?
En gros, nous mesurons combien de fois vous regardez un élément de tableau. Si la taille du tableau de double, votre algorithme de prendre deux fois plus longtemps? Quatre fois plus long? Ou sera le temps seulement d'augmenter un peu? Ou votre algorithme de prendre la même quantité de temps, peu importe comment grand l'entrée est?
Je sais comment big(0) fonctionne normalement, mais j'ai peur il y a quelques "truc" ou "penser en dehors de la boîte" la réponse à cette question, et je vais essayer de les éradiquer.
Je ne vois pas comment vous pouvez obtenir O(log n) de ce que si il ya certains de la commande aux éléments.

InformationsquelleAutor Ganesh M | 2009-07-28

algorithm arrays

24

Il y a une constante de temps de la solution si vous êtes prêt à accepter une faible probabilité d'erreur. Au hasard des échantillons de deux valeurs de l'array, si elles sont les mêmes, vous avez trouvé la valeur que vous recherchez. À chaque étape, vous avez une 0.75 probabilité de ne pas finir. Et parce que pour chaque epsilon, il existe un n tel que (3/4)^n < eps, on peut déguster au plus n fois et retourner une erreur si nous n'avons pas trouvé une paire.

Également remarquer que, si nous continuons d'échantillonnage jusqu'à ce que nous avons trouvé une paire, le temps d'exécution est constante, mais le cas le pire temps d'exécution n'est pas bornée.
- N'est généralement pas grand-O implique le pire des cas? Sinon, ce ne serait pas si dur.
- J'aime cette solution beaucoup. Même si vous allez par le biais de l'ordre de la liste de la cueillette des paires de 2 nombres, la probabilité de vous trouver la paire d'augmenter assez rapidement(comme pour le Problème d'Anniversaire). Il pourrait même atteindre O(logN) dans le cas moyen. Si elle aurait un pire cas O(N)
- Vous pouvez éviter la surabondance de temps d'exécution par l'échantillonnage des jeux en groupes de 3 dans le tableau de commande. Voir Ganesh M solution et mon raffinement.
- si nous ignorons le cas le pire moment, alors mon algorithme, ce qui suppose que le premier élément est le doublon, finitions en temps constant!
- il est de 50% de chances d'avoir raison. 🙂
- n'est-il pas un proverbe qui dit que vous ne pouvez pas obtenir plus que 2 des 3 variables, rapide, pas cher, correct? Je ne suis pas de charge, et de la constante de temps est assez rapide. donc je suppose que le bien-fondé allez avoir à souffrir 🙂
- pas de big-O n'implique pas l'pire des cas. "big-O pire des cas" implique le pire des cas. Le fait que les grands-O fournit une limite supérieure rend parfois les gens pensent qu'il doit être décrivant le pire des cas, mais ce n'est pas le cas. Vous pouvez avoir une asymptotique de la limite supérieure de la moyenne des cas, sans que également une asymptotique de limite supérieure sur le pire des cas. Ce serait alors "big-O moyenne des cas".
- Je pense que Jeremy point est que pire des cas est le seul cas pour ce problème qui rend effectivement une question intéressante. Il est trivial pour obtenir le meilleur des cas ou la moyenne des cas de l'algorithme qui fonctionne en log(n) fois.
- Comment est-il 0.75 ?
InformationsquelleAutor Eolmar
19

Voici ma tentative de preuve que ce ne peut pas être fait en moins de O(n) accès à des tableaux (pour le pire des cas, ce qui est sûrement le seul cas intéressant dans cet exemple):

Supposer le pire des cas log(n) algorithme existe. Cet algorithme accède au tableau au plus log(n) fois. Car il peut faire aucune hypothèse sur les éléments qui sont où, permettez-moi de choisir log(n) éléments qu'il voit. Je vais choisir de lui donner le premier log(n) des éléments uniques. Il n'a pas trouvé le double encore, et il existe encore des n/2 log(n) des éléments uniques pour me nourrir en cas de besoin. En fait, je ne peut pas être forcé à le nourrir un doublon de nombre jusqu'à ce qu'il a lu n/2 éléments. Par conséquent, un tel algorithme ne peut pas exister.

À partir d'un point de vue purement intuitive, cela semble juste impossible. Log(4 milliards de dollars) est de 32. Donc, avec un tableau de 4 milliards de chiffres, de 2 milliards de dollars qui sont uniques, dans aucun ordre particulier, il y a un moyen de trouver la copie de l'élément par la seule vérification de 32 éléments?
- Rappelez-vous que O(log.n) ne signifie pas automatiquement que exactement log_2(n) de la matrice de l'accès sont nécessaires. Vous pouvez avoir un*log(n)+b donne accès, pour les constantes a et b. [non pas que je pense que c'est possible que ce soit]
- c'est vrai, mon la preuve formelle de compétences ne sont pas à la tâche de démontrer que si a et b sont assez grands pour réellement vous permettre de trouver le double des chiffres, alors qu'ils sont nécessairement proportionnelle à n.
- +1 C'est un classique de la preuve par l'alimentation pire des cas nombres.
- L'une quelconque problème n'a pas besoin d'être en O(log(n)). Si la réclamation est qu'il est mieux que O(n), et vous avez prouvé que, par la disposition de la liste fournie, qu'il doit effectuer au moins n/2 recherches, alors vous avez affirmé que l'algorithme est exactement O(n) ou pour le pire.
- Je pense que j'ai été en utilisant log(n), car c'est ce que l'OP spécifié comme une cible souhaitée. Il est exact que je pourrait avoir fait une forte déclaration. En fin de compte, il n'a pas d'importance, parce que Ganesh était apparemment (basé sur sa a accepté de répondre) à la recherche de moyen de cas de la performance, pas le pire des cas, comme la plupart d'entre nous ont pensé.
- La preuve... Mais ce n'était pas la question. Voir ma réponse 🙂
- Essayez d'utiliser la définition du big Oh: Il existe M et N tel que pour tout n >= N l'algorithme utilise dans la plupart M*log(n) les opérations de matrice. Maintenant, nous voulons M*log(N') < N'/2. Nous pouvons trouver exactement ces N' pour chaque M à l'aide de la fonction log produit, mais nous avons seulement besoin de savoir qu'il existe parce que logN/N se développe plus lentement que N. Ainsi, pour certains n > N' nous pouvons prendre M*log(n) articles sans avoir essayé le nécessaire de la moitié à la suite de votre argument.
InformationsquelleAutor Peter Recore
16

Je pense que vous avez tout simplement besoin d'analyser à travers le tableau de tenir un carnet de commandes de deux éléments. En tant que N/2 sont à égalité, et le repos est garanti pour être distincts, il doit y avoir un endroit où je dans votre tableau où

a[i] == a[i-1] OR a[i] == a[i-2]

itérer une fois par le biais de votre tableau et vous avez la complexité de près de 2*N, qui doit être bien à l'intérieur de O(N).

Cette réponse est un peu similaire à la réponse par Ganesh M et Dougie, mais je pense un peu plus simple.
- Assurez-vous simplement d'initialiser correctement, vérifiez les cas de moins de 4 éléments, et de commencer la boucle à l'index 2. 🙂
- Eh bien, en effet, mais nous ne sommes pas ici parce que nous sommes surpris par l'existence de litiges transfrontaliers et boucle d'initialisation, n'est-ce pas?
InformationsquelleAutor Don Johe
6

Ma Réponse a été,
1. Fracture de N éléments en [N/3] les pièces (j'.e) chaque partie a 3 éléments.
2. Maintenant comparer ces 3 éléments les uns avec les autres. - 3 comparisions
3. Au moins l'une de la partie aura deux copies d'un même élément. Par conséquent, le nombre.
Runtime - O(N)
- Maintenant extrapoler à un million d'enregistrements et vous devriez voir votre logique est erronée. Le problème traitant avec de petits nombres (par exemple 10), c'est que vous pouvez faire des erreurs basé sur les anomalies dues à la taille. Les choses sont souvent beaucoup plus clair avec des ensembles plus larges.
- À partir de l'une des extrémités de la matrice, la probabilité de trouver 2 éléments en commun dans chaque série de 3 est de 50%. Ainsi, la complexité asymptotique est plus petit que O(n).
- Cela dépend si nous sommes à la recherche, au cas attendus ou pire des cas. Une solution robuste qui peut être fait en O(n). Si l'on suppose que le tableau est conforme et le double est le N/2 éléments, il s'agit de faire des hypothèses et reformulant le problème et de chercher à probabiliste cas attendus.
- ce défaut? Un ensemble de trois doivent avoir un doublon, sinon il n'y a pas N/2 de la même valeur, puisqu'il y a seulement N/3 sets.
- Maintenant reformuler la solution avec un tableau de millions d'éléments.
- c'est la même chose: for (i=0; i<N; i+=3) { if a[i] == a[1+1] || a[i] == a[i+2] retour a[i]; if a[i+1] == a[i+2] retour a[i+1]; } return -1; // impossible par problème spec
- Aussi, vous êtes à la réponse est fausse pour les 10 éléments. La diviser en 3 et que vous avez des ensembles de 3, 3 et 4. Vous devez tester le set de 4 et l'un des ensembles de 3, car la répétition de nombre pourrait être distribué 1,1,3 ou 2,2,1. Si vous êtes à la vérification d'un ensemble de 4 et un ensemble de 3 au minimum. Le Point est, il est toujours en O(n).
- Non, c'est 1/3,1/3,2/3,1/1 ou 1/3,1/3,3/3,0/1 pas de 1/3,1/3,3/4; c'est à dire, vous n'avez pas à regarder le dernier élément.
- c'est correct. vous n'avez pas à regarder le dernier.
- Ok, donc vous n'avez pas à regarder le dernier. Je vais vous donner qu'un. Mais la solution est toujours en O(n).
- Comparer 3 éléments entre eux peut nécessiter 3 comparaisons. Supposons que vous avez fait deux comparaisons et sans perte de généralité le point commun entre eux est un. Alors si a != a et b != c, vous devez toujours vérifier si b == c.
- oui, vous avez raison. Mon erreur.
- oui ma solution est O(N).
InformationsquelleAutor Ganesh M
5

Pierre est tout à fait exact. Voici une manière plus formelle de renouvelle sa preuve:

Laisser l'ensemble S est un ensemble contenant N éléments. C'est l'union de deux ensembles: p, qui contient un symbole α répété N/2 fois, et q, qui contient N/2 des symboles uniques ω₁..ω_n/2. S = p ∪ q.

Supposons qu'il existe un algorithme qui permet de détecter votre dupliqué nombre en log(n) comparaisons dans le pire des cas pour tous les N > 2. Dans le pire des cas, signifie que il n'existe aucune sous-ensemble r ⊂ S tel que |r| = log₂ N, où α ∉ r.

Cependant, parce que S = p ∪ q, il y a |p| de nombreux éléments ≠ α dans S. |p| = N/2, donc ∀ N/2 tel que N/2 ≥ log₂N, il doit exister au moins un ensemble r ⊂ S tel que |r| = log₂N et α ∉ r. C'est le cas pour tout N ≥ 3. Ce qui contredit l'hypothèse ci-dessus, donc il ne peut pas être un tel algorithme.

CQFD.
- pourquoi downvote ce mais pas à expliquer pourquoi?
- J'aime l'approche. Dans le "Supposons qu'il y a..." paragraphe, je ne suis pas sûr que votre dernière phrase est de 100% de son. Au moins, le "a est un élément de r" devrait être plus comme "un se produit plus d'une fois dans r".
- Aussi, pour pinailler, vous devez utiliser des multisets, comme "" jeux de suggérer des éléments uniques.
- Faire q contient pas.
- Ok, ouais. Votre "d'Assumer", paragraphe fait un saut dans la logique de la déclaration de l'algorithme étant O(log n) et il n'y a pas de sous-ensemble bla bla bla. Si c'était le son, ce serait également le travail si le problème a assumé les éléments ont été triés (qui NE font sublinéaire). Justifier cette étape et je pense que vous avez une grande preuve.
- +1 d'ailleurs. 🙂
- La question n'était pas à propos de O(log N) comparaisons, il était sur le runtime
InformationsquelleAutor Crashworks
3

Faire moins de O(n), vous avez de ne pas lire tous les numéros.

Si vous savez qu'il y est une valeur qui satisifies la relation ensuite, vous pouvez simplement déguster un petit sous-ensemble d'un spectacle qu'un seul numéro apparaît assez de temps pour satisfaire à la relation. Vous devez assumer les valeurs sont raisonnablement réparties uniformément

Modifier. vous devez lire n/2 pour prouver qu'un tel nombre existe, mais si vous en connaissait un certain nombre existé et ne voulait le trouver - vous pu lire sqrt(n) échantillons
- Vous ne pas à lire tous les numéros. Jamais. Il suffit de regarder un échantillon de N/2 + 1 éléments et la répétition de l'un est celui dont vous avez besoin. Que l'échantillon aura toujours la répétition de l'élément en raison de pigeon-hole bonté.
- arent vous garanti de ne pas lire tous les numéros, sauf dans le cas dégénéré de n = 2?
- N/2 + 1 est toujours en O(n)
- C'est la raison pour ceci est un commentaire et non une réponse 😛
- Vous devez lire une petite fraction des nombres par exemple sqrt(n) pour obtenir log n
- Comment pouvez-vous trouver avec une taille d'échantillon de sqrt(n). Vous devez lire les numéros jusqu'à ce que vous trouver un répétée de la valeur - dans le meilleur des cas est de 2 éléments, le pire cas est n/2 + 2.
- Pourriez-vous élaborer sur la sqrt réponse? Ce qui est spécial au sujet de sqrt?
- Ce dernier commentaire était destiné à être une question - "Comment pouvez-vous trouver avec une taille d'échantillon de sqrt(n)?"
- Rien de spécial à propos de sqrt - juste une suggestion que vous pourriez vérifier un sous-ensemble fondé sur un pouvoir, plutôt que d'une fraction.
InformationsquelleAutor Martin Beckett
3

La réponse est simple.. et peut être réalisé dans le pire des cas (n/2 + 1) comparaisons
1. Comparer deux à deux les premier (n-2) numéros, qui est, de comparer nos. à 0 et 1, puis 2 et 3 et ainsi de suite... total n/2 -1 comparaisons.
  Si nous trouvons des chiffres identiques dans les comparaisons ci-dessus.. nous avons la répétition de nombre... else:
2. De prendre l'un des deux derniers numéros restants (disons dernière seconde j'ai pris) et de la comparer avec les chiffres dans la dernière seconde paire.. si le match se produit..deuxième pas durer. est le repated, autrement dernière est la répétition d'un... dans tous les 2 comparaisons.
Total de comparaisons = n/2 - 1 + 2 =n/2 + 1 (pire des cas)
Je ne pense pas qu'il y est tout de O(log n) une méthode pour atteindre cet

InformationsquelleAutor Romit
3

Il est assez simple de voir que non O(log n) algorithme existe. Clairement, vous avez à regarder les éléments du tableau de la figure qui est la répétition de l'élément, mais n'importe quel ordre que vous choisissez de regarder les éléments, au premier étage(n/2) les éléments que vous regardez peut-être uniques. Vous pourriez tout simplement être malchanceux. Si cela arrivait, vous n'avez aucun moyen de savoir qui était la répétition de l'élément. Depuis pas d'algorithme qui utilise moins de floor(n/2) références de tableau ou moins sur chaque va fonctionner, il n'y a certainement pas de sous-algorithme linéaire.

InformationsquelleAutor PeterAllenWebb
1

Si je suis la compréhension du problème correctement: tout ce que nous savons à propos de la matrice est sa longueur et qu'il a (N/2)+1 éléments uniques, où 1 élément est répété N/2 fois(dans aucun ordre particulier).

Je pense que cette souffre d'une limite physique de O(N) pour la solution que vous ne pouvez pas vraiment affirmer (pour un générique de tableau) que vous avez trouvé le numéro, sans en trouver au moins 2 de ce même numéro. Je ne pense pas qu'il existe une recherche pour un non ordonnée tableau qui peut détecter un duplicata en O(logN) (corrigez-moi si je me trompe). Vous aurez toujours besoin d'en lire au moins N/2 +1 éléments dans le pire des cas.
- Vous n'aurez pas toujours besoin d'en lire au moins N/2 + 1 éléments. Le meilleur cas est les deux premiers éléments sont en double, ce qui signifie que vous pour lire les 2 éléments. Le pire des cas est le premier N/2 + 1 éléments sont tous uniques, ce qui signifie la (N/2 + 2)ème élément est la réponse, de sorte que vous aurez à lire N/2 + 2 au pire.
- Oups, tu as raison, je voulais dire dans le pire des cas. Vous avez raison, si les 2 premiers éléments étaient des doublons nous l'aurions fait.
InformationsquelleAutor Falaina
1

Retraitement ma solution à partir d'un commentaire de Ganesh version donc je peux le formater:
```
for (i=0; i<N-2; i+=3) { 
   if a[i] == a[1+1] || a[i] == a[i+2] return a[i];
   if a[i+1] == a[i+2] return a[i+1]; 
} 
return a[N-1]; //for very small N
```
Probabilité de gagner après 1 itération: 50%

Probabilité de gagner après 2 itérations: 75%

Etc.

Pire des cas, en O(n) en temps O(1) de l'espace.

Noter qu'après N/4 itérations vous avez utilisé toutes les N/2 numéros uniques, de sorte que cette boucle ne sera jamais itérer sur plus des 3/4 de la pile s'il est spécifié.
- Ne fonctionne pas sur un tableau de 4 éléments, si le deuxième match apparaît en dernière position. Pourquoi chercher à les trois à la fois, pourquoi pas deux?
- Merci, changé dernière ligne de retour a[N-1], la répare les N=4 cas et quelques autres pour le N<12. Je pense que N=5 est le seul cas particulier maintenant. Re 3 vs 2: trouver des paires plutôt que de triples ne fonctionne pas si les valeurs sont parfaitement distribués (même valeurs aléatoires, les valeurs de X, ou vice-versa).
InformationsquelleAutor Doug Currie

Supposons que vous avez un python algorithme comme ceci:

import math
import random

def find_duplicate(arr, gap):
    cost, reps = 0, 0
    while True:
        indexes = sorted((random.randint(0,len(arr)-i-1) for i in xrange(gap)), reverse=True)
        selection = [arr.pop(i) for i in indexes]
        selection_set = set(selection)
        cost += len(selection)
        reps += 1
        if len(selection) > len(selection_set):
            return cost, reps

L'idée est que arr est votre ensemble de valeurs et de écart est le logarithme en base 2 de la taille. Chaque fois que vous sélectionnez écart éléments et de voir si il y a des doublons. Si oui, de retour de vos coûts (en nombre d'éléments examinés) et le nombre d'itérations (où vous examinez log2(taille) d'éléments par itération). Sinon, regardez un autre écartde la taille d'ensemble.

Le problème avec l'analyse comparative de cet algorithme est que la création des données, chaque passage dans la boucle et l'altération des données est coûteuse, en supposant une grande quantité de données. (Au départ, je faisais 1 000 000 éléments de 10 000 000 d'itérations.)

Donc, nous allons réduire à un équivalent problème. Les données sont transmises en tant que n/2 éléments uniques et n/2 éléments répétés. L'algorithme choisit au hasard des indices de log2(n) des éléments et des contrôles pour les doublons. Maintenant, nous n'avons même pas à créer les données et de supprimer des éléments examinés: il nous suffit de vérifier si nous avons deux ou plusieurs indices sur le point à mi-chemin. Sélectionnez écart index, vérifiez 2 ou plus, le point à mi-chemin: de retour si trouvé, sinon répéter.

import math
import random

def find_duplicate(total, half, gap):
    cost, reps = 0, 0
    while True:
        indexes = [random.randint(0,total-i-1) for i in range(gap)]
        cost += gap
        reps += 1
        above_half = [i for i in indexes if i >= half]
        if len(above_half) >= 2:
            return cost, reps
        else:
            total -= len(indexes)
            half -= (len(indexes) - len(above_half))

Maintenant le code comme ceci:

if __name__ == '__main__':
    import sys
    import collections
    import datetime
    for total in [2**i for i in range(5, 21)]:
        half = total //2
        gap = int(math.ceil(math.log10(total) /math.log10(2)))
        d = collections.defaultdict(int)
        total_cost, total_reps = 0, 1000*1000*10
        s = datetime.datetime.now()
        for _ in xrange(total_reps):
            cost, reps = find_duplicate(total, half, gap)
            d[reps] += 1
            total_cost += cost
        e = datetime.datetime.now()
        print "Elapsed: ", (e - s)
        print "%d elements" % total
        print "block size %d (log of # elements)" % gap
        for k in sorted(d.keys()):
            print k, d[k]
        average_cost = float(total_cost) /float(total_reps)
        average_logs = average_cost /gap
        print "Total cost: ", total_cost
        print "Average cost in accesses: %f" % average_cost
        print "Average cost in logs: %f" % average_logs
        print

Si vous essayez ce test, vous verrez que le nombre de fois que l'algorithme a faire des sélections multiples diminue avec le nombre d'éléments de données. C'est, votre coût moyen dans les journaux asymptotiquement approches 1.

elements    accesses    log-accesses
32          6.362279    1.272456
64          6.858437    1.143073
128         7.524225    1.074889
256         8.317139    1.039642
512         9.189112    1.021012
1024        10.112867   1.011287
2048        11.066819   1.006075
4096        12.038827   1.003236
8192        13.022343   1.001719
16384       14.013163   1.000940
32768       15.007320   1.000488
65536       16.004213   1.000263
131072      17.002441   1.000144
262144      18.001348   1.000075
524288      19.000775   1.000041
1048576     20.000428   1.000021

Maintenant, est-ce un argument en faveur de l'idéal algorithme étant log2(n) dans la moyenne des cas? Peut-être. Ce n'est certainement pas de même dans le pire des cas.

Aussi, vous n'avez pas à choisir log2(n) éléments à la fois. Vous pouvez choisir 2 et vérifier l'égalité (mais dans le cas dégénéré, vous ne trouverez pas la duplication du tout), ou vérifier qu'un numéro de plus pour la duplication. À ce stade, tous les algorithmes que de sélectionner des éléments et vérifier la duplication à l'identique, ne variant que dans la façon dont beaucoup de qu'ils choisir et comment elles d'identifier les doublons.

InformationsquelleAutor hughdbrown

0

Si on vous dit que l'élément que vous recherchez, c'est le non-uniques sûrement le moyen le plus rapide de le faire est d'itérer ainsi que le tableau jusqu'à trouver deux fois la même et puis le retour de cet élément et de cesser de chercher. Au plus vous avez à la recherche de la moitié du tableau.

Je pense que c'est O(n) donc je suppose que cela n'aide pas vraiment.

Il semble trop simple donc je pense que je ne comprends pas le problème correctement.
- Cette solution est O(n^2) parce que, comme vous lisez chaque numéro, vous devez comparer tous les numéros précédents.
- Leys - Pas si vous stockez les numéros dans une table de hachage, comme vous allez.
- bon point. Mais peut-être que sa viens de O(n log n), puisque vous pouvez créer une triés arborescence recherche de doublons.
- ah. hachage aurait certainement ne pas avoir de collisions. sinon ça dégénère
- Oh oui, merci.
- vous pouvez utiliser un bitset pour ce faire en O(n).
- oooo mais si la taille des éléments sont arbitraires... c'est un gros bitset. 🙂
- Un bitset avec 2^31 éléments peuvent être stockés dans ~67 millions de 32 bits entiers ou ~270M de stockage. C'est entièrement faisable.
- Faisable? Oui.
InformationsquelleAutor James Gardner

Ici est Ne Johe réponse en Ruby:

#!/usr/bin/ruby1.8

def find_repeated_number(a)
  return nil unless a.size >= 3
  (0..a.size - 3).each do |i|
    [
      [0, 1],
      [0, 2],
      [1, 2],
    ].each do |j1, j2|
      return a[i + j1] if a[i + j1] == a[i + j2]
    end
  end
end

p find_repeated_number([1, 1, 2])   # => 1
p find_repeated_number([2, 3, 2])   # => 1
p find_repeated_number([4, 3, 3])   # => 1

O(n)

InformationsquelleAutor Wayne Conrad

Algorithme RepeatedElement(a, n)

while (true) do
{
   i=Random() mod n+1; j=Random() mod n+1;
   //i and j are random numbers in the range [1,n]
   if ((i ≠ j) and a[i]=a[j])) then return;
}

InformationsquelleAutor greeshma

0

Similaire à https://stackoverflow.com/a/1191881/199556 explication.

Nous allons comparer les 3 éléments(3 opération de comparaison) dans le pire des cas "même" élément n'apparaît qu'une fois.
Nous avons donc réduire la queue par 3 et de réduire le nombre de "même" éléments par un.

À l'étape finale(après k itérations) notre queue contiendra (n/2) - k "même" éléments. Nous allons comparer la longueur de la queue.

D'une part, il n-3k
d'autre part (n/2) - k + 1. Dernière unsame éléments peuvent exister.

n-3k = (n/2) - k + 1

k = 1/4*(n-2)

Après k itérations, nous allons sûrement avoir raison.

Nombre de comparaisons 3/4*(n-2)

InformationsquelleAutor sh1ng
-1

Tout d'abord, il est passé de mon lit et je devrais le savoir mieux que de poster le code en public sans essayer d'abord, yada, yada. J'espère que la critique que je vais obtenir au moins d'enseignement. 🙂

Je crois que le problème peut être formulé ainsi: "Trouver le nombre qui se produit plus d'une fois."

Dans l'absolu pire des cas, nous aurions besoin de parcourir un peu plus de la moitié de la liste (1 + N/2) avant nous avons trouvé la 2ème instance d'un nombre non unique.

Pire des cas, exemple: array [] = { 1, 2, 3, 4, 5, 10, 10, 10, 10, 10 }

Sur moyenne cependant, nous ne devons rechercher si 3 ou 4 éléments, puisque la moitié des éléments contiennent les non-numéro unique-je.e à peu près tous les autre numéro.

Parfaitement, même de la distribution des exemples:
- tableau [] = { 1, 10, 2, 10, 3, 10, 4, 10, 5, 10 }
- tableau [] = { 10, 1, 10, 2, 10, 3, 10, 4, 10, 5 }
En d'autres mots, même si N = 1 millions d'euros, vous n'auraient toujours besoin de la recherche; en moyenne, le premier de 3 ou 4 éléments avant de vous découvert un doublon.

Ce qu'est le big O notation pour un fixe et constante exécution qui n'augmente pas avec N?

Code:
```
int foundAt = -1;

for (int i=0; (i<N) && (foundAt==-1); i++)
{
    for (int j=i+1; j<N; j++)
    {
        if (array[i] == array[j])
        {
             foundAt = i;
             break;
        }
     }
}

int uniqueNumber = array[foundAt];
```
- C'est un O(nn) de l'algorithme, droit? Changer votre intérieur de la boucle pour un échange et vous avez une insertion de tri, de O(nn) algorithme de tri.
- Constante de temps d'exécution est O(1). Mais big-O est sur le pire des cas. C'est pourquoi tout le monde dit ça est O(n). Vous ne pouvez pas faire des déclarations comme "en moyenne, le premier de 3 ou 4 éléments" sans le savoir quelque chose au sujet de la distribution des numéros. [Par ailleurs, votre solution est O(n^2).]
InformationsquelleAutor Chris Bennet
-1

C'est une mauvaise question d'entrevue.
1. Vous ne savez pas la réponse vous-même.
2. Il n'a pas de cas d'affaires derrière elle, de sorte que vous aurez de la difficulté à l'expliquer, à le candidat.
Principalement en raison de la première. Que recherchez-vous? Que le candidat devra venir avec ce O(log n) solution vous ne savez pas existe? Si vous vous posez StackOverflow, est-ce quelque chose que vous pouvez raisonnablement s'attendre à un candidat dans une interview?
- C'est une question d'entrevue, il a été demandé, pas celui qu'il a donné.
- Désolé Kevin, je n'ai pas de poser cette question, j'ai été invité par les enquêteurs ..
- C'est une mauvaise SORTE de réponse. Je pense que le but est DONC de poser des questions à un ne pas connaître la réponse. C'est amusant de demander à chacun soigné de la question et puis de publier le droit de réponse, ce n'est certainement pas nécessaire. J'imagine que la plupart de la communauté ont demandé à cette question si ils étaient dans Ganesh chaussures.
- Jeremy, il est parfaitement bien de répondre à la question que je pensais était demandé. Désolé pour la fourniture d'une réponse avant les commentaires précisé ce que c'était. Dans une interview, il est important de savoir ce que vous cherchez dans une réponse.
InformationsquelleAutor Kevin Peterson
-1

Contrairement aux réponses ci-dessus, il existe une solution avec pire des cas comportement comme demandé, O(log n) MOMENT de l'EXÉCUTION.
Le problème n'est pas de trouver une solution avec O(log N) comparaisons pire des cas (ce qui est impossible), mais de le faire en O(log N) temps.

Si vous pouvez le faire N comparaisons en parallèle, la solution est triviale divide-and-conquer.
Pas très pratique dans le monde réel, mais c'est une question d'entrevue, pas un problème réel.

Mise à jour: je pense que vous pouvez le faire en temps constant O(N) processeurs
- Je pense que vous avez juste a redéfini ce que l'on entend lorsque l'on parle de big o la notation. Normalement, vous n'êtes pas autorisé à tricher en vous donnant des capacités de traitement que l'échelle de votre problème de taille.
- Je ne pense pas que j'ai redéfini il; case igoro.com/archive/big-oh-in-the-parallel-world et le paragraphe sur la parallélisation de Quicksort dans en.wikipedia.org/wiki/Quicksort#Parallelization
- OK, nous devrions peut-être dire que vous êtes exploitant une faille dans un mal spécifiées question. Vos deux liens traiter en parallèle de la performance comme un add-on, non une chose normale. Normalement, quand quelqu'un demande pour le grand O de l'exécution, l'hypothèse est que des qu'ils le veulent pour un non parallèles classiques processeur. Pas un N système de processeur, et non pas un système avec un quantum de mathématiques carte, et non pas un système alimenté par des cristaux de dilithium et positronic des réseaux de neurones. Oui, une question de fond, aurait mentionné que toutes ces choses ne sont pas autorisés. Mais sûrement ce qui serait fastidieux?
- BTW, je ne dis pas que la question parallèle n'est pas intéressant ou pas d'importance. Je pense juste que dans ce cas particulier, il n'est pas dans l'esprit de la question. Puis de nouveau, je pense que la question est bidon pour commencer, car il ne dit pas s'il veut le pire des cas, dans le meilleur des cas, la moyenne des cas, et ne définit pas ce qu'il veut réellement mesurer - des comparaisons, des accès à des tableaux, etc.
- Avec de nombreuses questions de l'entrevue, ce n'est pas la réponse qui est important, mais le processus de la pensée. Bidon questions avec des informations insuffisantes sont juste des façons d'obtenir cela a commencé. Pour obtenir des détails et de la remise en cause des hypothèses sont Une Bonne Chose.
- Il serait en O(N) le pire des cas, les délais avec N processeurs parce que vous avez un O(N) séquentielle composant sur le processeur principal (d'avoir le résultat de chaque processeur, etc)... Donc, l'ajout de processeurs ne vous aide pas, vous êtes l'amélioration de la partie parallèle à O(1) O(N), mais la partie séquentielle est O(N) donc c'est inutile.
- Vous n'avez pas besoin du résultat de chaque processeur, si un processeur rencontres des valeurs identiques que c'est la réponse finale (rappelez-vous, tous les "autres", les valeurs sont uniques).
InformationsquelleAutor beetstra

Vous devez vous connecter pour publier un commentaire.