Sélectionnez n lignes aléatoires à partir de SQL Server le tableau

J'ai une table SQL Server avec environ 50 000 lignes. Je veux choisir d'environ 5 000 de ces lignes au hasard. J'ai pensé à une manière compliquée, la création d'une table temporaire avec un "nombre aléatoire" colonne, la copie de mon tableau dans le, une boucle dans la table temporaire et la mise à jour de chaque ligne avec RAND(), puis en sélectionnant cette table où le nombre aléatoire colonne < 0.1. Je suis à la recherche d'un moyen plus simple de le faire dans un seul état si possible.

Cet article vous suggérons d'utiliser le NEWID() fonction. Qui semble prometteur, mais je ne vois pas comment je pourrais fiable de sélectionner un certain pourcentage de lignes.

Personne n'a jamais le faire avant? Des idées?

MSDN a un bon article qui couvre un grand nombre de ces questions: la Sélection de Lignes au Hasard à partir d'un Tableau de Grande taille
Double Possible de Comment demander une ligne au hasard dans SQL?

InformationsquelleAutor John M Gant | 2009-05-11

360
```
select top 10 percent * from [yourtable] order by newid()
```
En réponse à la "pure trash" commentaires au sujet des grandes tables: vous pouvez le faire comme ceci pour améliorer les performances.
```
select  * from [yourtable] where [yourPk] in 
(select top 10 percent [yourPk] from [yourtable] order by newid())
```
Le coût de ce sera la clé d'analyse des valeurs plus la jointure des coûts, qui, sur une grande table avec un petit pourcentage de sélection devrait être raisonnable.
- J'aime cette approche beaucoup mieux à l'aide de l'article qu'il a référencés.
- Il est toujours bon de garder à l'esprit que la fonction newid() n'est pas vraiment un bon générateur de nombres pseudo-aléatoires, au moins pas aussi bon que rand(). Mais si vous avez juste besoin de quelques vaguement randomish échantillons et ne se soucient pas de la mathématique qualités et tel, ça va être assez bon. Sinon, vous devez: stackoverflow.com/questions/249301/...
- Euh, désolé si c'est évident.. mais ce n' [yourPk] référence? EDIT: Nvm, pensé à elle... Clé Primaire. Durrr
- newid - guid est disigned pour être unique, mais pas aléatoire.. approche incorrecte
- avec un grand nombre de lignes par exemple plus de 1 million de newid() Sorte Estimation des I/O du coût sera très élevé et aura un effet sur les performances.
- L'utilisation de rand() par rapport à newid() permet également de définir une graine, ce qui est utile si vous voulez que votre requête soit reproductible.
InformationsquelleAutor Ralph Shillington
77

En fonction de vos besoins, TABLESAMPLE, vous obtiendrez presque aussi aléatoire et de meilleures performances.
il est disponible sur MS SQL server 2005 et versions ultérieures.

TABLESAMPLE renverra les données à partir de pages au hasard au lieu de lignes aléatoires et donc aid même pas récupérer les données qu'il ne reviendra pas.

Sur une très grande table, j'ai testé
```
select top 1 percent * from [tablename] order by newid()
```
a fallu plus de 20 minutes.
```
select * from [tablename] tablesample(1 percent)
```
a pris 2 minutes.

Performance permettra également d'améliorer sur de plus petits échantillons dans TABLESAMPLE considérant qu'il ne sera pas avec newid().

Veuillez garder à l'esprit que ce n'est pas aussi aléatoire que le newid() méthode, mais vous donnera un décent de l'échantillonnage.

Voir le Page MSDN.
- Comme l'a souligné Rob Boek ci-dessous, tablesampling touffes résultats, et n'est donc pas un bon moyen d'obtenir un petits nombre de résultats aléatoires
- - Vous l'esprit la question de savoir comment cela fonctionne: select top 1% * à partir de [nom de la table] commande par newid() depuis newid() n'est pas une colonne dans la [nom de la table]. Est sql server ajoutant interne de la colonne newid() sur chaque ligne et ensuite faire un tri ?
- Le tablesample était la meilleure réponse pour moi comme je le faisais une requête complexe sur une très grande table. Pas question qu'il a été remarquablement rapide. J'ai eu une variation dans le nombre d'enregistrements retournés comme j'ai couru plusieurs fois, mais tous ont été à l'intérieur d'une marge d'erreur acceptable.
InformationsquelleAutor Patrick Taylor
37

newid()/de la commande par fonctionner, mais il sera très coûteux pour les grands ensembles de résultats, car il doit générer un id pour chaque ligne, puis de les trier.

TABLESAMPLE() est bonne d'un point de vue des performances, mais vous aurez l'agrégation de résultats (toutes les lignes sur une page sera retourné).

Pour l'amélioration des performances vrai aléatoire de l'échantillon, le meilleur moyen est de filtrer les lignes au hasard. J'ai trouvé l'exemple de code suivant dans la documentation en Ligne SQL Server de l'article Limiter les Ensembles de Résultats en Utilisant TABLESAMPLE:
Si vous voulez vraiment un échantillon aléatoire de
des lignes individuelles, de modifier votre requête
filtrer les lignes au hasard, au lieu de
à l'aide de TABLESAMPLE. Par exemple, l'
requête ci-dessous utilise la fonction NEWID
la fonction de retour d'environ un
pourcentage de lignes de la
De vente.SalesOrderDetail:
```
SELECT * FROM Sales.SalesOrderDetail
WHERE 0.01 >= CAST(CHECKSUM(NEWID(),SalesOrderID) & 0x7fffffff AS float)
              / CAST (0x7fffffff AS int)
```
La colonne SalesOrderID est inclus dans
la somme de contrôle de l'expression de sorte que
NEWID() évalue une fois par ligne à
réaliser l'échantillonnage d'un par ligne.
L'expression CAST(somme de contrôle(NEWID(),
SalesOrderID) & 0x7fffffff en tant QUE float /
CAST (0x7fffffff COMME int) évalue à
un random float valeur entre 0 et 1.
Lorsqu'il est exécuté sur une table avec 1 000 000 de lignes, voici mes résultats:
```
SET STATISTICS TIME ON
SET STATISTICS IO ON

/* newid()
   rows returned: 10000
   logical reads: 3359
   CPU time: 3312 ms
   elapsed time = 3359 ms
*/
SELECT TOP 1 PERCENT Number
FROM Numbers
ORDER BY newid()

/* TABLESAMPLE
   rows returned: 9269 (varies)
   logical reads: 32
   CPU time: 0 ms
   elapsed time: 5 ms
*/
SELECT Number
FROM Numbers
TABLESAMPLE (1 PERCENT)

/* Filter
   rows returned: 9994 (varies)
   logical reads: 3359
   CPU time: 641 ms
   elapsed time: 627 ms
*/    
SELECT Number
FROM Numbers
WHERE 0.01 >= CAST(CHECKSUM(NEWID(), Number) & 0x7fffffff AS float) 
              / CAST (0x7fffffff AS int)

SET STATISTICS IO OFF
SET STATISTICS TIME OFF
```
Si vous pouvez vous en sortir avec l'aide de TABLESAMPLE, il vous donnera les meilleures performances. Sinon, utiliser la fonction newid()/méthode de filtrage. newid()/de la commande par devrait être le dernier recours, si vous avez un grand ensemble de résultats.
- J'ai vu que l'article trop et l'essayer sur mon code, il semble que NewID() est évaluée qu'une seule fois, au lieu de par ligne, que je n'aime pas...
InformationsquelleAutor Rob Boek
21

La sélection de Lignes au Hasard à partir d'une Grande Table sur MSDN est simple, bien articulé solution qui traite de la performance à grande échelle des préoccupations.
```
  SELECT * FROM Table1
  WHERE (ABS(CAST(
  (BINARY_CHECKSUM(*) *
  RAND()) as int)) % 100) < 10
```
- Très intéressante. Après la lecture de l'article, je ne comprends vraiment pas pourquoi RAND() ne retourne pas la même valeur pour chaque ligne (qui irait à l'encontre de la BINARY_CHECKSUM() logique). Est-ce parce que c'est d'être appelée à l'intérieur d'une autre fonction, plutôt que de faire partie de la clause SELECT?
- Cette requête a couru sur une table avec 6MM lignes en moins d'une seconde.
- J'ai couru cette requête sur une table avec 35 entrées et d'avoir gardé deux d'entre eux dans l'ensemble très souvent. Cela pourrait être un problème avec rand() ou une combinaison de ceux-ci - mais je me suis détourné de cette solution pour cette raison. Aussi le nombre de résultats varient de 1 à 5, donc cela pourrait également ne pas être acceptable dans certains scénarios.
- Ne pas RAND() renvoie la même valeur pour chaque ligne?
- RAND() renvoie la même valeur pour chaque ligne (c'est pourquoi cette solution est rapide). Cependant, les lignes avec les binaires de sommes qui sont très proches sont à haut risque de générer similaires de la somme de contrôle des résultats, provoquant l'agglutination quand RAND() est petit. E. g., (ABS(CAST((BINARY_CHECKSUM(111,null,null) * 0.1) as int))) % 100 == SELECT (ABS(CAST((BINARY_CHECKSUM(113,null,null) * 0.1) as int))) % 100. Si vos données souffre de ce problème, multiplier BINARY_CHECKSUM par 9923.
- J'ai pris 9923 de manière quelque peu arbitraire. Cependant, je voulais être le premier (bien que les premiers avec 100 serait probablement suffisant). Aussi parce que tant que RAND() n'est pas très petit, 9923 est assez grand pour étaler la formation de grumeaux.
InformationsquelleAutor Kyle McClellan
9

Si vous (à la différence de l'OP) besoin d'un certain nombre de dossiers (ce qui fait que la somme de contrôle d'approche difficile) et le désir d'un échantillon plus aléatoire que TABLESAMPLE fournit par lui-même, et qui souhaitent également améliorer la vitesse de somme de contrôle, vous pouvez le faire avec une fusion de la TABLESAMPLE et NEWID() méthodes, comme ceci:
```
DECLARE @sampleCount int = 50
SET STATISTICS TIME ON

SELECT TOP (@sampleCount) * 
FROM [yourtable] TABLESAMPLE(10 PERCENT)
ORDER BY NEWID()

SET STATISTICS TIME OFF
```
Dans mon cas, c'est le plus simple compromis entre l'aléatoire (ce n'est pas vraiment, je sais) et de la vitesse. Varier les TABLESAMPLE pourcentage (ou lignes) le cas échéant, plus le pourcentage est élevé, plus aléatoire de l'échantillon, mais s'attendre à un linéaire de la baisse de la vitesse. (Notez que TABLESAMPLE n'acceptera pas une variable)

InformationsquelleAutor Oskar Austegard
9

Ce lien avoir une comparaison intéressante entre Orderby(NEWID()) et d'autres méthodes pour les tableaux 1, 7 et 13 millions de lignes.

Souvent, lorsque des questions sur la façon de sélectionner des lignes aléatoires, il est demandé aux groupes de discussion, la fonction NEWID requête est proposé; il est simple et fonctionne très bien pour de petites tables.
```
SELECT TOP 10 PERCENT *
  FROM Table1
  ORDER BY NEWID()
```
Cependant, la fonction NEWID requête a un gros inconvénient lorsque vous l'utilisez pour les grandes tables. La clause ORDER BY causes de toutes les lignes de la table pour être copiés dans la base de données tempdb, où ils sont triés. Cela pose deux problèmes:
1. L'opération de tri a généralement un coût élevé associé.
  Le tri peut utiliser beaucoup d'I/O disque et peut fonctionner pendant une longue période.
2. Dans le pire des cas, la base de données tempdb peut manquer d'espace. Dans le
  meilleur des cas, la base de données tempdb peut prendre jusqu'à une grande quantité d'espace disque
  qui jamais ne se fera sans un manuel de commande de réduction.
Ce que vous avez besoin est un moyen de sélectionner des lignes au hasard que de ne pas utiliser la base de données tempdb et ne sera pas obtenir beaucoup plus lent que le tableau devient plus grand. Voici une nouvelle idée sur la façon de le faire:
```
SELECT * FROM Table1
  WHERE (ABS(CAST(
  (BINARY_CHECKSUM(*) *
  RAND()) as int)) % 100) < 10
```
L'idée de base de cette requête, c'est que nous voulons générer un nombre aléatoire entre 0 et 99 pour chaque ligne du tableau, puis sélectionnez toutes les lignes dont le nombre aléatoire est inférieur à la valeur spécifiée pour cent. Dans cet exemple, nous voulons environ 10 pour cent des lignes sélectionnées au hasard; c'est pourquoi, nous avons choisi toutes les lignes dont le nombre aléatoire est inférieur à 10.

Veuillez lire l'intégralité de l'article dans MSDN.
- Salut Deumber, nice trouvée, vous pouvez chair depuis lien seules réponses sont susceptibles d'être supprimés.
- Je l'ai changé pour éviter d'être lien seule réponse 🙂
InformationsquelleAutor RJardines
8

Il suffit de commander la table par un nombre aléatoire et obtenir les premiers 5 000 lignes à l'aide de TOP.
```
SELECT TOP 5000 * FROM [Table] ORDER BY newid();
```
Mise à JOUR

L'ai essayé et un newid() appel est suffisante, pas besoin de tous les moulages et les maths.
- La raison pour laquelle tous les moulages et de toutes les mathématiques " est utilisé pour de meilleures performances.
InformationsquelleAutor Daniel Brückner
4

C'est une combinaison de la graine initiale idée et une somme de contrôle, qui ressemble pour moi à donner correctement les résultats aléatoires sans le coût de la fonction NEWID():
```
SELECT TOP [number] 
FROM table_name
ORDER BY RAND(CHECKSUM(*) * RAND())
```
InformationsquelleAutor Nanki
3

Dans MySQL, vous pouvez faire ceci:
```
SELECT `PRIMARY_KEY`, rand() FROM table ORDER BY rand() LIMIT 5000;
```
- Cela ne fonctionnera pas. Depuis l'instruction select est atomique, il ne s'empare d'un nombre aléatoire et de duplicata pour chaque ligne. Vous devez réamorcer sur chaque ligne pour le forcer à changer.
- Mmm... l'amour vendeur différences. Sélectionnez est atomique sur MySQL, mais je suppose que, dans une manière différente. Cela fonctionne dans MySQL.
InformationsquelleAutor Jeff Ferland
2

N'arrive pas à voir cette variation dans les réponses à ce jour. J'avais une contrainte supplémentaire où j'ai besoin, étant donné une graine initiale, pour sélectionner le même ensemble de lignes à chaque fois.

Pour MS SQL:

Minimum exemple:
```
select top 10 percent *
from table_name
order by rand(checksum(*))
```
Normalisé temps d'exécution: 1.00

NewId() exemple:
```
select top 10 percent *
from table_name
order by newid()
```
Normalisé temps d'exécution: 1.02

NewId() est pas significativement plus lent que rand(checksum(*)), de sorte que vous pouvez ne pas vouloir l'utiliser contre les grands ensembles d'enregistrements.

Sélection avec la Graine Initiale:
```
declare @seed int
set @seed = Year(getdate()) * month(getdate()) /* any other initial seed here */

select top 10 percent *
from table_name
order by rand(checksum(*) % @seed) /* any other math function here */
```
Si vous devez sélectionner le même ensemble donné une graine, cela semble fonctionner.
- Est-il un avantage de l'aide spéciale à @semences contre RAND() ?
- Pas sûr à 100% de ce que vous demandez, de l'esprit de clarification?
- absolument, Vous avez utilisé des semences de paramètre et de le remplir par le paramètre de date, fonction RAND() de faire de même, sauf à l'aide de la complète de la valeur temps, je veux savoir, c'est un avantage quelconque à l'aide de handy créé paramètre comme la graine au-dessus de RAND() ou pas?
- Ah!!!. OK, c'était une exigence du projet. J'avais besoin de générer une liste de n-lignes aléatoires de manière déterministe. Fondamentalement, le leadership voulu savoir ce que "random" lignes nous serions en sélectionnant quelques jours avant que les lignes ont été sélectionnées et traitées. Par la construction d'une valeur de semences basé sur l'année, le mois, je ne pourrait garantir que tout appel à la requête de cette année serait de retour le même "aléatoire" de la liste. Je sais, c'est étrange et il y a probablement de meilleures façons, mais il a travaillé...
- HAHA 🙂 je vois, mais je pense que le sens général de l'aléatoire des enregistrements sélectionnés n'est pas la même des dossiers sur les différents cours d'exécution de la requête.
InformationsquelleAutor klyd

Essayez ceci:

SELECT TOP 10 Field1, ..., FieldN
FROM Table1
ORDER BY NEWID()

InformationsquelleAutor Ravi Parashar

0

Il semble newid() ne peut pas être utilisée dans la clause where, de sorte que cette solution nécessite une requête interne:
```
SELECT *
FROM (
    SELECT *, ABS(CHECKSUM(NEWID())) AS Rnd
    FROM MyTable
) vw
WHERE Rnd % 100 < 10        --10%
```
InformationsquelleAutor Hai Phan

Je l'utilise dans la sous-requête et il me fit même des lignes de sous-requête

 SELECT  ID ,
            ( SELECT TOP 1
                        ImageURL
              FROM      SubTable 
              ORDER BY  NEWID()
            ) AS ImageURL,
            GETUTCDATE() ,
            1
    FROM    Mytable

puis j'ai résolu avec notamment parent variable de table où

SELECT  ID ,
            ( SELECT TOP 1
                        ImageURL
              FROM      SubTable 
              Where Mytable.ID>0
              ORDER BY  NEWID()
            ) AS ImageURL,
            GETUTCDATE() ,
            1
    FROM    Mytable

Note de l'endroit où condtition

InformationsquelleAutor VISHMAY

0

Du côté serveur, le traitement de la langue en cours d'utilisation (par exemple PHP, .net, etc) n'est pas spécifié, mais si c'est du PHP, saisir le nombre requis (ou tous les enregistrements) et à la place de l'aléatoire dans l'utilisation de la requête PHP la fonction de lecture aléatoire. Je ne sais pas si .net a une fonction équivalente, mais si c'est le cas alors l'utiliser si vous êtes en utilisant .net

ORDER BY RAND() pourra avoir une perte de performance, en fonction du nombre de dossiers sont impliqués.
- Je ne me souviens pas exactement ce que j'ai été en utilisant ce à l'époque, mais j'étais probablement de travail en C#, peut-être sur un serveur, ou peut-être dans une application cliente, pas sûr. C# n'ont pas directement comparables à celles de PHP shuffle autant que je sache, mais il pourrait être fait en appliquant les fonctions de l'objet au Hasard dans une opération de sélection, la commande de la suite, et puis en prenant le top dix pour cent. Mais nous aurions à lire l'ensemble de la table à partir du disque sur le serveur de base de données et de les transmettre sur le réseau, seulement à jeter 90% de ces données. Traitement directement dans la DB est presque certainement plus efficace.
InformationsquelleAutor SpacePhoenix
-2

Cela fonctionne pour moi:
```
SELECT * FROM table_name
ORDER BY RANDOM()
LIMIT [number]
```
- avez-vous essayé que sur SQL Server? ALÉATOIRE n'est pas une fonction et de LIMITE n'est pas un mot-clé. La syntaxe SQL Server pour ce que vous faites serait select top 10 percent from table_name order by rand(), mais qui ne fonctionne pas parce que rand() renvoie la même valeur sur toutes les lignes.
InformationsquelleAutor Deep

Vous devez vous connecter pour publier un commentaire.