La génération m distinctes nombres aléatoires dans l'intervalle [0..n-1]

J'ai deux méthodes de génération de m distinctes nombres aléatoires dans l'intervalle [0..n-1]

Méthode 1:

//C++-ish pseudocode
int result[m];
for(i = 0; i < m; ++i)
{
   int r;
   do
   {
      r = rand()%n;
   }while(r is found in result array at indices from 0 to i)
   result[i] = r;   
}

Méthode 2:

//C++-ish pseudocode
int arr[n];
for(int i = 0; i < n; ++i)
    arr[i] = i;
random_shuffle(arr, arr+n);
result = first m elements in arr;

La première méthode est plus efficace lorsque n est beaucoup plus grand que m, tandis que la seconde est plus efficace autrement. Mais "beaucoup plus grand" n'est pas stricte de la notion, est-il? 🙂

Question: Quelle formule de n et m dois-je utiliser pour déterminer si method1 ou method2 sera plus efficace? (en termes d'espérance mathématique de la durée de fonctionnement)

Si m est vraiment petit, n'efficacité tant d'importance? Optimiser pour le cas qui est plus susceptible de causer des problèmes.
Je vais dynamiquement obtenir n, et m. Je vais avoir à déterminer d'exécution de la méthode à utiliser
Avez-vous testé les deux méthodes avec un couple de différents paramètres? Juste pour avoir une sensation approximative de combien de temps ils prennent.

InformationsquelleAutor Armen Tsirunyan | 2011-08-04

algorithm c++performance random

15

Mathématiques pures:

Nous allons calculer la quantité de rand() appels de fonction dans les deux cas, et de comparer les résultats:

Cas 1:
nous allons voir l'espérance mathématique d'appels sur l'étape i = k, quand vous avez déjà k numéros choisis. La probabilité d'obtenir un nombre avec un rand() appel est égal à p = (n-k)/n. Nous avons besoin de savoir l'espérance mathématique de tels appels à la quantité qui conduit à l'obtention d'un numéro nous n'avons pas encore.

La probabilité d'obtenir de l'aide 1 appel est p. À l'aide de 2 appels - q * p, où q = 1 - p. Dans le cas général, la probabilité d'obtenir exactement après n appels est (q^(n-1))*p. Ainsi, l'espérance mathématique est

Sum[ n * q^(n-1) * p ], n = 1 --> INF. Cette somme est égale à 1/p (prouvé par wolfram alpha).

Ainsi, à l'étape i = k vous allez effectuer 1/p = n/(n-k) appels de la rand() fonction.

Maintenant, nous allons somme globale de:

Sum[ n/(n - k) ], k = 0 --> m - 1 = n * T - le nombre de rand appels de la méthode 1.

Ici T = Sum[ 1/(n - k) ], k = 0 --> m - 1

Cas 2:

Ici rand() est appelée à l'intérieur d' random_shuffle n - 1 fois (dans la plupart des implémentations).

Maintenant, le choix de la méthode, il nous faut comparer ces deux valeurs: n * T ? n - 1.

Donc, pour choisir la méthode appropriée, calculer T comme décrit ci-dessus. Si T < (n - 1)/n il est préférable d'utiliser la première méthode. Utiliser la deuxième méthode contraire.
- Ce serait génial si vous pouviez s'il vous plaît développez - " à l'Aide de 2 appels - q * p, où q = 1 - p." Je ne comprends pas vraiment.
- Je voudrais également envisager de l'effort de recherche(qui est de 0 pour le cas 2) à chaque itération de la boucle while, non seulement le temps de l'aléatoire des appels
InformationsquelleAutor Grigor Gevorgyan
9

Vérifier la Wikipédia description de la origine de Fisher-Yates algorithme. Il prône une utilisation essentiellement de votre méthode 1 jusqu'à n/2, et votre méthode 2 pour le reste.
- Je pense que c'est une optimisation question. Il suffit de la mesurer sur le système cible.
- Cela semble à peu près juste, certes, d'un mémoire souci d'efficacité. L'aide de la méthode 2 peut consommer énormément de mémoire inutilement avec des petites m valeurs.
- visualstudiomagazine.com/articles/2013/07/01/... vous pouvez trouver une bonne expliqué c# de mise en œuvre de la méthode de Fisher. La poste a également montre également une autre Approche avec La Méthode du Réservoir et les différences entre eux.
InformationsquelleAutor Mark Ransom
6

Personnellement, je voudrais utiliser la Méthode 1, et puis si M > N/2, choisissez N-M valeurs, puis inverser la matrice (retourner les numéros qui n'ont pas été pris). Ainsi, par exemple, si N est de 1000 et que vous voulez 950 d'entre eux, choisi 50 valeurs à l'aide de la Méthode 1, puis les retourner et les autres 950.

Edit: Si, si cohérente de la performance est votre but, je voudrais utiliser une version modifiée de la méthode 2, ce qui ne veut pas faire le plein de lecture aléatoire, mais seulement le mélange de la première M éléments de votre N longueur du tableau.
```
int arr[n];
for(int i = 0; i < n; ++i)
    arr[i] = i;

for (int i =0; i < m; ++i) {
   int j = rand(n-i); //Pick random number from 0 <= r < n-i.  Pick favorite method
   //j == 0 means don't swap, otherwise swap with the element j away
   if (j != 0) { 
      std::swap(arr[i], arr[i+j]);
   }
}
result = first m elements in arr;
```
InformationsquelleAutor Dave S
6

Voici un algorithme qui fonctionne en temps O(n) de la mémoire et de O(n) temps (où n est le nombre de résultats retournés, pas de la taille de l'ensemble que vous êtes en sélectionnant à partir de) pour n'importe quel jeu de résultats. C'est en Python pour des raisons de commodité, car il utilise une table de hachage:
```
def random_elements(num_elements, set_size):
    state = {}
    for i in range(num_elements):
        # Swap state[i] with a random element
        swap_with = random.randint(i, set_size - 1)
        state[i], state[swap_with] = state.get(swap_with, swap_with), state.get(i, i)
    return [state[i] for i in range(num_elements) # effectively state[:num_elements] if it were a list/array.
```
C'est juste une partielle shuffle de fisher-yates, avec la matrice été battues en œuvre comme un éparses à la table de hachage tout élément qui n'est pas présent est égal à son index. Nous aléatoire de la première num_elements indices, et le retour de ces valeurs. Dans le cas qui set_size = 1, c'est l'équivalent de choisir un nombre aléatoire dans l'intervalle, et dans le cas qui num_elements = set_size, c'est équivalent à une norme de fisher-yates shuffle.

Il est trivial de constater que ce est O(n) le temps, et parce que chaque itération de la boucle initialise au plus deux nouveaux indices dans la table de hachage, il est O(n) dans l'espace, trop.
- Hashtable/dictionnaire d'accès n'est pas de temps constant O(1), mais plutôt de temps logarithmique O(log(n)) de sorte que l'ensemble de complexité O(n log(n)).
- Il est constant amorti en fait
- Je crois qu'il devrait être swap_with = random.randint(i, set_size-1) depuis randint() utilise un large éventail? @nick-johnson
- Wow, vous avez raison. Belle bibliothèque Python gotcha là que je n'avais jamais remarqué avant. Fixe.
InformationsquelleAutor Nick Johnson
3

Qu'environ un tiers de la méthode?
```
int result[m];
for(i = 0; i < m; ++i)
{
   int r;
   r = rand()%(n-i);
   r += (number of items in result <= r)
   result[i] = r;   
}
```
Modifier il convient de <=. et il serait effectivement logique supplémentaire pour éviter les collisions.

C'est mieux, un exemple d'utilisation de la Méthode Moderne de Fisher-Yates
```
//C++-ish pseudocode
int arr[n];
for(int i = 0; i < n; ++i)
    arr[i] = i;

for(i = 0; i < m; ++i)
    swap(arr, n-i, rand()%(n-i) );

result = last m elements in arr;
```
- Qu'entendez-vous par (number of items in result < r)? Si cela veut dire que 1 est ajouté si la r est plus grand que le nombre d'éléments du résultat?
- +1 encore une Fois, il nous manquait à l'évidence. Il faudrait consommer beaucoup d'espace, mais parce que vous auriez à garder vos résultats dans une liste triée trop pour effectuer le (number of items in result < r) vérifier efficacement.
- Je veux dire +1 pour chaque élément de résultat <= r. C'est pour compenser le fait que nous sommes rand() to n-i
- Mais ce n'est pas exactement uniformément aléatoire, est-il?
- Je veux dire, même si nous supposons que rand() renvoie un distribuée de manière uniforme numéro de votre algorithme ne sera pas générer répartit de manière uniforme les séquences
- Pourquoi pas? N'est-il pas essentiellement en disant: choisir un nombre entier aléatoire dans [0,n-1], puis choisir aléatoirement une de la n-1 reste...enfin choisir l'un de l' n-m+1 restants. C'est le début de la shuffle de Fisher-Yates, mais en s'arrêtant à n-m au lieu de 2.
InformationsquelleAutor Jacob Eggers
2

Parler de l'espérance mathématique, c'est assez inutile, mais je post quand même 😀

Shuffle est simple O(m).

Maintenant l'algorithme est un peu plus complexe. Le nombre d'étapes nécessaires pour générer le prochain numéro de la valeur attendue du nombre d'essais, et la probabilité de la durée du procès est un geomtric de distribution. Alors...
```
p=1          E[X1]=1            = 1           = 1
p=1-1/n      E[x2]=1/(1-1/n)    = 1 + 1/(n-1) = 1 + 1/(n-1) 
p=1-2/n      E[x3]=1/(1-1/n)    = 1 + 2/(n-2) = 1 + 1/(n-2) + 1/(n-2)
p=1-3/n      E[X4]=1/(1-2/n)    = 1 + 3/(n-3) = 1 + 1/(n-3) + 1/(n-3) + 1(n-3)
....
p=1-(m-1)/n) E[Xm]=1/(1-(m-1)/n))
```
Noter que la somme peut être divisé en une forme de triangle, voir du côté droit.

Nous allons utiliser la formule de la série harmonique: H_n = Somme de k=0->n (1/k) = env ln(k)
```
Sum(E[Xk]) = m + ln(n-1)-ln(n-m-1) + ln(n-2)-ln(n-m-1) + ... = m + ln(n-1) + ln(n-2) + ... - (m-1)*ln(n-m-1) ..
```
Et il y a quelques forumla pour la somme de la série harmonique, si vous êtes encore intéressé, je vais regarder...

Mise à jour: en fait, c'est assez agréable de formule (grâce à la brillante Béton livre de Mathématiques)
```
Sum(H_k) k=0->n = n*H_n - n
```
De sorte que le nombre d'étapes:
```
Sum(E[Xk]) = m + (n-1)*ln(n-1) - (n-1) - (n-m-1)*ln(n-m-1) - (n-m-1)) - (m-1)*ln(n-m-1).
```
Remarque: je n'ai pas vérifié.

InformationsquelleAutor Karoly Horvath
1

C'est un peu un long shot, mais il pourrait fonctionner, en fonction de votre système.
1. Commencer avec quelques ratio raisonnable, comme 0,5.
2. Lorsqu'une demande arrive, le traiter avec un quelle que soit la méthode que vous obtenez à partir de la valeur actuelle du seuil de ratio.
3. Enregistrer le temps qu'il faut et quand vous avez le "vide" de temps, d'effectuer la même tâche avec l'autre méthode.
4. Si la solution est beaucoup plus rapide que l'original, ajuster le seuil haut ou vers le bas.
Le défaut évident de cette méthode est que, très variable, les systèmes de charge à votre "hors ligne" test ne sera pas trop fiable.

InformationsquelleAutor biziclop
0

Il a été suggéré de Fisher-Yates shuffle. Ne sais pas si le code suivant génère également distribué des entiers, mais il est au moins compact et une passe:
```
std::random_device rd;
std::mt19937 g(rd());
for (size_type i = 1; i < std::size(v); ++i) {
    v[i] = std::exchange(v[g() % i], i);
}
```
InformationsquelleAutor Orient
0

Que sur l'utilisation de ensemble au lieu de tableau, je pense qu'il est beaucoup plus facile que la matrice de
```
set<int> Numbers;
while (Numbers.size() < m) {
   Numbers.insert(rand() % n);
}
```
InformationsquelleAutor Hani Shams
-1

Tout à fait peut-être qu'il serait plus simple de le faire démarrer en mode debug (et de garder une méthode comme une note) pour un couple de fois pour obtenir une moyenne, puis d'utiliser l'autre méthode pour obtenir une moyenne à partir de ce

InformationsquelleAutor Justin

-1

Je ne conseille pas cette méthode, mais elle fonctionne

#include <iostream>
#include <random>
#include <ctime>

using namespace std;

int randArray[26];
int index = 0;

bool unique(int rand) {

    for (int i = 0; i < index; i++)
        if (rand == randArray[i])
            return false;
    index++;
    return true;
}


int main()
{
    srand(time(NULL));

    for (int i = 1; i < 26; i++)
        randArray[i] = -1;

    for (int i = 0; i < 26; i++) {

        randArray[i] = rand() % 26;

        while (!unique(randArray[i])) {
            randArray[i] = rand() % 26;
        }
    }

    for (int i = 0; i < 26; i++) {
        cout << randArray[i] << " ";
    }

    cout << "\n" << index << endl;


    return 0;
}

InformationsquelleAutor Olufisayo Joseph Ayodele

Vous devez vous connecter pour publier un commentaire.