Sélectionnez ligne au hasard à partir d'une table sqlite

J'ai un sqlite table avec le schéma suivant:

CREATE TABLE foo (bar VARCHAR)

J'utilise cette table pour le stockage d'une liste de chaînes.

Comment puis-je sélectionner une ligne au hasard à partir de ce tableau?

plusieurs stackoverflow.com/questions/4114940/...

InformationsquelleAutor Alex_coder | 2010-02-17

195

Ont un coup d'oeil à La sélection d'une Ligne au Hasard à partir d'une Table SQLite
```
SELECT * FROM table ORDER BY RANDOM() LIMIT 1;
```
- Votre réponse semble être similaire à celui fourni par Svetlozar. Donc, j'ai la même question pour vous.
- Comment étendre cette solution à une jointure? Lors de l'utilisation de SELECT a.foo FROM a JOIN b ON a.id = b.id WHERE b.bar = 2 ORDER BY RANDOM() LIMIT 1; je reçois toujours la même ligne.
InformationsquelleAutor Adriaan Stander
29

Les solutions suivantes sont beaucoup plus rapides que anktastic (le count(*) coûte beaucoup, mais si vous pouvez mettre en cache, alors la différence n'est pas si grand), qui lui-même est beaucoup plus rapide que le "order by random()" lorsque vous avez un grand nombre de lignes, mais ils ont quelques inconvénients.

Si votre rowids sont plutôt emballé (ie. quelques suppressions), puis vous pouvez faire ce qui suit (à l'aide de (select max(rowid) from foo)+1 au lieu de max(rowid)+1 offre de meilleures performances, comme expliqué dans les commentaires):
```
select * from foo where rowid = (abs(random()) % (select (select max(rowid) from foo)+1));
```
Si vous avez des trous, parfois d'essayer de sélectionner une inexistant rowid, et select retourne un jeu de résultats vide. Si ce n'est pas acceptable, vous pouvez fournir une valeur par défaut comme ceci :
```
select * from foo where rowid = (abs(random()) % (select (select max(rowid) from foo)+1)) or rowid = (select max(rowid) from node) order by rowid limit 1;
```
Cette deuxième solution n'est pas parfaite : la distribution de probabilité est plus élevée sur la dernière ligne (celle avec la plus haute rowid), mais si vous souvent ajouter des trucs à la table, il deviendra une cible en mouvement et de la distribution de probabilité devrait être beaucoup mieux.

Encore une autre solution, si vous sélectionnez des trucs aléatoires à partir d'une table avec beaucoup de trous, alors vous voudrez peut-être créer une table qui contient les lignes de la table d'origine triés dans un ordre aléatoire :
```
create table random_foo(foo_id);
```
Puis, periodicalliy, re-remplir le tableau random_foo
```
delete from random_foo;
insert into random_foo select id from foo;
```
Et pour sélectionner une ligne au hasard, vous pouvez utiliser ma première méthode (il n'y a pas de trous ici). Bien sûr, cette dernière méthode a des problèmes de concurrence d'accès, mais la re-construction de random_foo est un entretien de fonctionnement qui n'est pas susceptible de se produire très souvent.

Encore, encore d'une autre manière, que j'ai récemment trouvé sur un liste de diffusion, est de mettre un trigger sur supprimer pour déplacer la ligne avec la plus grande rowid dans le courant de ligne supprimée, de sorte que les trous sont de gauche.

Enfin, notez que le comportement de rowid et un integer primary key autoincrement n'est pas identique (avec rowid, lorsqu'une nouvelle ligne est insérée, max(rowid)+1 est choisi, wheras c'est plus de la valeur-jamais-vu+1 pour une clé primaire), de sorte que la dernière solution ne fonctionne pas avec un autoincrement dans random_foo, mais les autres méthodes.
- Comme je viens de voir sur une liste de diffusion, au lieu d'avoir le secours de la méthode (méthode 2), vous pouvez simplement utiliser rowid >= [random] au lieu de =, mais il est en fait slugissingly lente par rapport à la méthode 2.
- C'est une grande réponse, cependant il a un problème. SELECT max(rowid) + 1 sera une requête lente, cela nécessite un full table scan. sqlite seulement d'optimiser la requête SELECT max(rowid). Ainsi, cette réponse pourrait être amélioré par: select * from foo where rowid = (abs(random()) % (select (select max(rowid) from foo)+1)); Voir ce pour plus d'info: sqlite.1065341.n5.nabble.com/...
InformationsquelleAutor Suzanne Dupéron
16

Ce sujet:
```
SELECT COUNT(*) AS n FROM foo;
```
puis de choisir un nombre aléatoire m dans [0, n) et
```
SELECT * FROM foo LIMIT 1 OFFSET m;
```
Vous pouvez même enregistrer le premier nombre (n) quelque part et de mettre à jour uniquement lorsque la base de données compte les modifications. De cette façon, vous n'avez pas à faire le SELECT COUNT chaque fois.
- C'est une belle méthode rapide. Il n'a pas généraliser très bien à la sélection de plus de 1 ligne, mais l'OP n'a demandé que des 1, donc je suppose que c'est bien.
- Une chose curieuse à noter est que le temps requis pour trouver la OFFSET semble aller jusqu'en fonction de la taille de l'offset - ligne 2 est rapide, ligne 2 millions d'prend du temps, même lorsque toutes les données dans l'est de taille fixe, et il devrait être en mesure de demander directement à elle. Au moins, c'est ce à quoi il ressemble dans SQLite 3.7.13.
- Assez bien toutes les bases de données ont le même problème avec les " OFFSET`. C'est une voie très inefficace pour interroger une base de données, car il a besoin de lire que de nombreuses lignes, même si elle ne retourne 1.
- Notez que je parle /taille fixe/ dossiers bien qu'il devrait être facile de numériser directement vers la bonne octet de données (pas de la lecture que de nombreuses lignes), mais ils auraient à mettre en œuvre l'optimisation explicitement.
- il n'y a pas de taille fixe enregistrements dans SQLite, il est dynamiquement typé et les données n'ont pas à correspondre à l'déclaré affinités (sqlite.org/fileformat2.html#section_2_1). Tout est stocké dans le b-arbre de pages, donc de toute façon il doit faire au moins un b-arbre de recherche vers la feuille. Pour accomplir efficacement, il serait nécessaire de mémoriser la taille de la sous-arborescence avec chaque enfant pointeur. Il serait trop généraux pour peu d'avantages, que vous ne serez pas en mesure d'optimiser le DÉCALAGE pour les jointures, order by, etc... (et sans ORDRE PAR l'ordre n'est pas défini.)
InformationsquelleAutor Andres Kievsky
15

Vous avez besoin de mettre "ordre ALÉATOIRE()" sur votre requête.

Exemple:
```
select * from quest order by RANDOM();
```
Nous allons voir un exemple complet
1. Créer une table:
```
CREATE TABLE  quest  (
    id  INTEGER PRIMARY KEY AUTOINCREMENT,
    quest TEXT NOT NULL,
    resp_id INTEGER NOT NULL
);
```
L'insertion de certaines valeurs:
```
insert into quest(quest, resp_id) values ('1024/4',6), ('256/2',12), ('128/1',24);
```
Un défaut sélectionnez:
```
select * from quest;

| id |   quest  | resp_id |
   1     1024/4       6
   2     256/2       12
   3     128/1       24
--
```
Une sélection aléatoire:
```
select * from quest order by RANDOM();
| id |   quest  | resp_id |
   3     128/1       24
   1     1024/4       6
   2     256/2       12
--
```
*Chaque fois que vous sélectionnez, l'ordre sera différent.

Si vous voulez retourner une seule ligne
```
select * from quest order by RANDOM() LIMIT 1;
| id |   quest  | resp_id |
   2     256/2       12
--
```
*Chaque fois que vous sélectionnez, le retour sera différent.
- Alors que le code-seulement les réponses ne sont pas interdit, s'il vous plaît comprendre que c'est un Q&Une communauté, plutôt que d'un "crowd-sourcing", et que, généralement, si l'OP compris le code posté une réponse, il serait venu avec une solution similaire sur son propre, et de ne pas avoir posté une question dans la première place. En tant que tel, veuillez fournir contexte pour votre réponse et/ou de code en expliquant comment et/ou pourquoi cela fonctionne.
- Je préfère cette solution, car elle me permet de faire une recherche de n lignes. Dans mon cas, j'avais besoin de 100 échantillons aléatoires à partir de la base de données - ORDRE ALÉATOIRE() combinée avec la LIMITE de 100 est exactement ce que fait.
InformationsquelleAutor Roberto Góes
12
```
SELECT   bar
FROM     foo
ORDER BY Random()
LIMIT    1
```
- Car cela permet de sélectionner la totalité du contenu de la table en premier, ne serait-ce pas beaucoup de temps pour de grandes tables?
- Ne pouvez-vous pas juste de limiter la portée à l'aide de "OÙ" condition(s)?
InformationsquelleAutor Svetlozar Angelov

Voici une modification de @ank la solution:

SELECT * 
FROM table
LIMIT 1 
OFFSET ABS(RANDOM()) % MAX((SELECT COUNT(*) FROM table), 1)

Cette solution fonctionne aussi pour les indices avec des lacunes, parce que nous avons un décalage aléatoire dans un intervalle [0, count). MAX est utilisé pour traiter une affaire avec table vide.

Ici sont de simples résultats de test sur une table avec 16k lignes:

sqlite> .timer on
sqlite> select count(*) from payment;
16049
Run Time: real 0.000 user 0.000140 sys 0.000117

sqlite> select payment_id from payment limit 1 offset abs(random()) % (select count(*) from payment);
14746
Run Time: real 0.002 user 0.000899 sys 0.000132
sqlite> select payment_id from payment limit 1 offset abs(random()) % (select count(*) from payment);
12486
Run Time: real 0.001 user 0.000952 sys 0.000103

sqlite> select payment_id from payment order by random() limit 1;
3134
Run Time: real 0.015 user 0.014022 sys 0.000309
sqlite> select payment_id from payment order by random() limit 1;
9407
Run Time: real 0.018 user 0.013757 sys 0.000208

InformationsquelleAutor vokilam

4

Je suis venu avec la solution suivante pour la de grandes bases de données sqlite3:
```
SELECT * FROM foo WHERE rowid = abs(random()) % (SELECT max(rowid) FROM foo) + 1; 
```
De l'abs(X) la fonction retourne la valeur absolue de l'argument numérique
X.

Le random() renvoie une pseudo-aléatoire entier compris entre
-9223372036854775808 et +9223372036854775807.

L'opérateur % des sorties de l'entier de la valeur de son opérande de gauche modulo son opérande de droite.

Enfin, vous ajoutez +1 à prévenir rowid égal à 0.
- Bon je vais essayer mais je ne pense pas que cela va fonctionner. Que faire si une ligne avec rowId = 5 a été supprimé, mais rowIds 1,2,3,4,6,7,8,9,10 existent-ils encore? Ensuite, si le hasard rowId choisi est 5, cette requête ne retourne rien.
InformationsquelleAutor Brut

Vous devez vous connecter pour publier un commentaire.