Quelle est l'importance de l'ordre des colonnes dans les index?

J'ai entendu dire que vous devriez mettre les colonnes qui seront le plus sélectif au début de l'indice de déclaration. Exemple:

CREATE NONCLUSTERED INDEX MyINDX on Table1
(
   MostSelective,
   SecondMost,
   Least
)

Tout d'abord, est ce que je dis correct? Si oui, suis-je susceptible de voir de grandes différences dans la performance en réorganisant l'ordre des colonnes dans mon index, ou est-il plus "agréable" pratique?

La raison pour laquelle je suis demander c'est parce que après avoir mis une requête par le biais de la DTA, il a recommandé que je créer un index qui ont presque tous les mêmes colonnes en elle comme un index existant, juste dans un ordre différent. J'envisage simplement d'ajouter les colonnes manquantes à l'index existant et en l'appelant, il est bon. Pensées?

InformationsquelleAutor Abe Miessler | 2010-02-18

176

Regarder un indice comme ceci:
```
Cols
  1   2   3
-------------
|   | 1 |   |
| A |---|   |
|   | 2 |   |
|--- | ---|   |
|   |   |   |
|   | 1 | 9 |
| B |   |   |
|   |---|   |
|   | 2 |   |
|   |---|   |
|   | 3 |   |
|--- | ---|   |
```
Voir comment la restriction de sur les Une première, en tant que votre première colonne permet d'éviter plus de résultats que la restriction sur votre deuxième colonne de la première? C'est plus facile si vous imaginez ce que l'index doit être parcouru à travers, colonne 1, colonne 2, etc...vous voyez que tailler la plupart des résultats dans le poing pass rend la 2ème étape que beaucoup plus rapide.

Un autre cas, si vous interrogé sur la colonne 3, l'optimiseur ne serait même pas utiliser l'index, car il n'est pas utile tout en réduisant les jeux de résultats. Quand vous êtes dans une requête, réduisant le nombre de résultats à traiter avant la prochaine étape signifie de meilleures performances.

Depuis que l'indice est également stocké de cette façon, il n'y a pas de retour en arrière à travers l'index pour trouver la première colonne lorsque vous interrogez sur elle.

En bref: Non, ce n'est pas pour le spectacle, il y a de vrais avantages de performance.
- Dans l'image ci-dessus, gardez à l'esprit que cet indice ne serait que bénéfique si la Colonne 1 a été spécifié dans la requête. Si votre requête ne spécifie que la Colonne 2 dans la Jointure de Recherche ou de Prédicat, alors il ne serait pas bénéfique. Donc, pour des questions de là aussi. Peut-être cela va sans dire, mais je voulais le mentionner.
- Aussi garder à l'esprit, supposons que votre Index est comme sur l'image ci-dessus, et à vos filtres de requête sur colonne1 et colonne2, mais colonne2 est plus unique, et ce que vous voulez vraiment pour le filtrage est fait colonne2, puis sa plus avantageux d'avoir un index où la colonne 2 est premier. Cela peut sembler contre-intuitif, mais gardez à l'esprit qu'un index est stocké sur plusieurs pages et est un arbre avec une plage de valeurs, tandis que la Colonne 1 ci-dessus ne nie 1/2 les possibilités, l'indice sait déjà quel index page pour aller directement à la Colonne2 valeur, il n'a pas besoin de la Colonne 1 à affiner l'ensemble.
- Cette image n'est pas une représentation exacte de la façon dont les index sont structurés ou à naviguer. Ont soumis une réponse à la rectification de cette stackoverflow.com/a/39080819/73226
- Je suis en désaccord que c'est inexact. Il est certes très très simplifiée, ce qui était mon intention. Votre réponse creuser dans beaucoup plus de détails sur les niveaux est apprécié même si, pour ceux qui veulent creuser un peu plus profondément en elle. Si vous regardez votre image de l'arbre, vous verrez ce que je suis illustrant dans un très de façon simple. Ce n'est pas très unique ou même spécifique SQL; B-arbre d'indexation est assez commun, à travers tant de choses.
- Je voudrais aussi en désaccord que c'est inexact, ce que vous décrivez est le comportement standard de la façon d'arriver à couvrir l'indice de sélectivité est beaucoup plus important une fois que vous effectuez une gamme de requêtes que cela minimise le nombre de pages de l'index que l'optimiseur de numérisation, ce qui peut être important dans les grandes tables avec des millions de lignes
- si vous avez besoin d'un indice qui prend en charge une gamme de chercher la sélectivité est sans importance vous avez besoin de la première colonne à la une de votre gamme est contre. Rien d'autre ne vous donner une gamme de chercher si il n'y a pas de choix à faire.
- Peut-on dire que l'utilisation d'un filtre de colonne 1: recherche d'index, colonne 2: analyse d'index, colonne 3: analyse de la table?
- Est d'avoir plusieurs index qui sont classées dans un ordre différent bénéfique? Pour l'exemple A,B,C et B,A,C pour aider avec les différentes possibilités de regroupement?
InformationsquelleAutor Nick Craver
114

L'ordre des colonnes est critique. Maintenant que l'ordre est correcte, il dépend de la façon dont vous allez l'interroger. Un index peut être utilisé pour faire un exact de rechercher ou d'une analyse de plage. Une exacte recherche est lorsque les valeurs pour toutes les colonnes de l'index est spécifié et que la requête s'arrête sur la ligne qui l'intéresse. Pour cherche l'ordre des colonnes n'est pas pertinent. Une analyse de plage, c'est quand seulement certaines colonnes sont spécifiées, et dans ce cas, lorsque l'ordre est important. SQL Server peut utiliser un index pour une analyse uniquement si la colonne la plus à gauche est spécifié, et seulement si, la prochaine colonne la plus à gauche est spécifié, et ainsi de suite. Si vous avez un index sur (A,B,C), il peut être utilisé pour l'analyse de plage pour les A=@a, pour A=@a AND B=@b mais pas pour B=@b, pour C=@c niB=@b AND C=@c. Le cas A=@a AND C=@c est un mixte, comme dans le A=@a partie de l'index, mais le C=@c pas (la requête va scanner toutes les valeurs de B pour A=@a, ne sera pas "skip" pour C=@c). D'autres systèmes de base de données ont appelé "skip scan" de l'opérateur qui peut prendre un certain avantage de l'intérieur des colonnes dans un index lorsque les colonnes extérieures ne sont pas spécifiés.

Avec cette connaissance à la main, vous pouvez regarder la définition des indices de nouveau. Un index sur (MostSelective, SecondMost, Least) sera effective que lorsque MostSelective la colonne spécifiée. Mais étant donné que la plus sélective, la pertinence de l'intérieur des colonnes se dégradent rapidement. Très souvent, vous verrez que un meilleur indice est sur (MostSelective) include (SecondMost, Least) ou sur (MostSelective, SecondMost) include (Least). Parce que l'intérieur des colonnes sont moins pertinentes, en plaçant une faible sélectivité des colonnes dans de telles positions dans l'index rend rien, mais le bruit pour une recherche, il est donc logique de les déplacer hors de l'intermédiaire de pages et de les garder uniquement sur les pages de feuilles, pour la requête coverability fins. En d'autres termes, les déplacer à INCLURE. Cela devient plus importante que la taille de Least colonne augmente. L'idée est que cet indice ne peut que bénéficier à des requêtes qui spécifient MostSelective soit comme une valeur exacte ou une autre, et que la colonne la plus sélective, c'est déjà limite le candidat lignes à grande échelle.

D'autre part un index sur (Least, SecondMost, MostSelective) peut sembler être une erreur, mais c'est en fait assez un puissant indice. Parce qu'il a la Least colonne comme ultrapériphériques de la requête, il peut être utilisé pour les requêtes qui ont pour agréger les résultats sur la faible sélectivité des colonnes. Ces requêtes sont courantes dans la OLAP et l'analyse des entrepôts de données, et c'est exactement là où de tels indices ont une très bonne affaire pour elle. Ces indices font réellement excellent cluster index, précisément parce qu'ils organisent la disposition physique sur de grandes portions de lignes connexes (même Least valeur, ce qui indique généralement une sorte de catégorie ou un type) et qu'ils facilitent l'analyse des requêtes.

Donc, malheureusement, il n'y a pas de "corriger" l'ordre. Vous ne devriez pas suivre tout à l'emporte-pièce recette mais au lieu d'analyser le modèle de requête, vous allez contre l'utilisation de ces tables et de décider de l'index de la colonne de la commande est de droit.
- Génial réponse comme d'habitude Remus. Je vais lire votre troisième paragraphe un peu plus de temps et de suivi. Je soupçonne que peut être exactement ce dont j'ai besoin.
- "SQL Serveur peut utiliser un index pour une analyse uniquement si la colonne la plus à gauche est spécifié, et seulement si, la prochaine colonne la plus à gauche est spécifié, et ainsi de suite." Ce exactement ce qui manquait à ma compréhension, merci! Je ne savais pas analyse de la plage ne peut être fait sur la droite a utilisé l'indice de colonne, mais maintenant que je le fais, c'est tellement logique.
- Est-ce l'explication applicable pour Oracle DB?
- Oui, il est, fondamentalement, aucune relation de base de données avec des Indices de travail identique ou de manière très similaire.
InformationsquelleAutor Remus Rusanu
38

Que Remus dit que cela dépend de votre charge de travail.

Je voudrais aborder un aspect trompeur de la accepté de répondre si.

Pour les requêtes qui sont de l'exécution d'une égalité de recherche sur toutes les colonnes de l'index il n'y a pas de différence significative.

Ci-dessous crée deux tables et remplit avec des données identiques. La seule différence est que l'on a les clés ordonnées de la plus à la moins sélective et l'autre l'inverse.
```
CREATE TABLE Table1(MostSelective char(800), SecondMost TINYINT, Least  CHAR(1), Filler CHAR(4000) null);
CREATE TABLE Table2(MostSelective char(800), SecondMost TINYINT, Least  CHAR(1), Filler CHAR(4000) null);

CREATE NONCLUSTERED INDEX MyINDX on Table1(MostSelective,SecondMost,Least);
CREATE NONCLUSTERED INDEX MyINDX2 on Table2(Least,SecondMost,MostSelective);

INSERT INTO Table1 (MostSelective, SecondMost, Least)
output inserted.* into Table2
SELECT TOP 26 REPLICATE(CHAR(number + 65),800), number/5, '~'
FROM master..spt_values
WHERE type = 'P' AND number >= 0
ORDER BY number;
```
En train de faire une requête sur deux tables...
```
SELECT *
FROM   Table1
WHERE  MostSelective = REPLICATE('P', 800)
       AND SecondMost = 3
       AND Least = '~';

SELECT *
FROM   Table2
WHERE  MostSelective = REPLICATE('P', 800)
       AND SecondMost = 3
       AND Least = '~'; 
```
... Deux d'entre eux utilisent un indice d'amende et deux sont donné exactement le même coût.

L'ASCII art dans l'acceptation réponse n'est pas, en fait, la façon dont les index sont structurés. Les pages d'index pour Table1 sont représentés ci-dessous (cliquez sur l'image pour l'ouvrir en taille réelle).

Les pages d'index contient des lignes contenant l'ensemble de la clé (dans ce cas, il est en fait une colonne clé supplémentaire ajouté pour l'identificateur de ligne, l'indice n'a pas été déclarée comme un être unique, mais qui peut être ignoré de plus amples informations à ce sujet peuvent être trouvés ici).

Pour la requête ci-dessus SQL Server ne se soucient pas de la sélectivité des colonnes. Il fait un binaire de recherche de la page racine et découvre que le Clé (PPP...,3,~ ) est >=(JJJ...,1,~ ) et < (SSS...,3,~ ) donc, il faut lire la page 1:118. Il fait ensuite une recherche binaire des entrées de clé sur cette page et localise la page feuille pour faire le trajet à.

Modifier l'index dans l'ordre de sélectivité n'a pas d'incidence sur le nombre de comparaisons clés de la recherche binaire ou le nombre de pages qui doivent être explorés pour faire une recherche d'index. Au mieux, il pourrait légèrement la vitesse de la comparaison clé elle-même.

Parfois, la commande la plus sélective de l'indice d'abord du sens, pour d'autres requêtes dans votre charge de travail même si.

E. g si la charge de travail contient les requêtes des deux formes suivantes.
```
SELECT * ... WHERE  MostSelective = 'P'

SELECT * ...WHERE Least = '~'
```
L'index ci-dessus ne sont pas de couverture pour l'un ou l'autre. MostSelective est suffisamment sélectif pour faire un plan avec une recherche et des recherches de la peine, mais la requête contre Least ne l'est pas.

Toutefois ce scénario (non couvrant recherche d'index sous-ensemble de la colonne principale(s) d'un indice composite) est possible qu'une seule classe de requête qui peut être aidé par un index. Si vous n'avez jamais fait de recherche par MostSelective sur son propre ou une combinaison de MostSelective, SecondMost et toujours à la recherche d'une combinaison de tous les trois colonnes, alors cet avantage théorique est inutile de vous.

À l'inverse des requêtes telles que
```
SELECT MostSelective,
       SecondMost,
       Least
FROM   Table2
WHERE  Least = '~'
ORDER  BY SecondMost,
          MostSelective 
```
Serait facilitée par la présence de l'ordre inverse du couramment prescrits - comme il se couvre de la requête, peut soutenir une recherche et renvoie les lignes dans l'ordre souhaité pour démarrer.

C'est donc souvent répété morceau de conseils, mais en plus c'est une heuristique sur les avantages potentiels pour autres requêtes - et il n'est pas un substitut pour en fait en regardant votre de la charge de travail.

InformationsquelleAutor Martin Smith
30

vous devriez mettre les colonnes qui seront le plus sélectif au début de l'indice de déclaration.

Correcte.
Les index peuvent être composites -, composée de plusieurs colonnes et l'ordre est important en raison de l'extrême gauche le principe. La raison en est, que la base de données vérifie la liste de gauche à droite, et doit trouver un correspondant de la colonne de référence correspondant à l'ordre défini. Par exemple, ayant un index sur une table d'adresses avec des colonnes:
- Adresse
- Ville
- État
Toute requête à l'aide de la address colonne peut utiliser l'indice, mais si la requête ne soit city et/ou state références - l'index ne peut pas être utilisé. C'est parce que la colonne la plus à gauche n'est pas référencé. Les performances de la requête devrait vous dire ce qui est optimal - des indices individuels, ou plusieurs composés avec des ordres différents. Bonne lecture: Le Point De Basculement, par Kimberley Tripp
- Et si c'était seulement la colonne la plus à droite qui n'a pas été utilisé? Donc une requête qui permet de l'Adresse et de la ville, mais PAS l'etat. Serait l'indice d'utiliser alors?
- L'extrême droite ne serait pas utilisée - vous devez répondre à l'ordre d'index à partir de la gauche. Miss, ne peuvent pas l'utiliser.
- Si vous interroger sur l'Adresse et de la ville, mais PAS l'etat - alors oui, l'indice serait utilisé. En d'autres termes, la base de données est en mesure d'utiliser partiellement les indices de satisfaire une demande, tant qu'il est en mesure de démarrer à partir de la gauche d'un index et se déplacer vers la droite en utilisant les champs qui sont interrogées. Si, toutefois, vous interrogé à l'aide de l'Adresse et de l'État, mais PAS la ville, il peut encore utiliser l'index, mais il ne sera pas aussi efficace - parce que maintenant, il est seulement capable d'utiliser la partie Adresse de l'indice (b/c est de la ville et il n'est pas utilisé dans la requête).
InformationsquelleAutor OMG Ponies
2

Toutes les réponses sont fausses.

Sélectivité des différentes colonnes dans un indice composite ne pas question lors de la prise de la commande.

Voici le simple processus de pensée: de manière Efficace, un indice est la concaténation des colonnes concernées.

Donner cette explication, la seule différence est de comparer deux chaînes de caractères qui diffèrent plus tôt lieu de plus tard dans la chaîne. Ce n'est qu'une infime partie du coût total. Il n'y a pas de "premier passage /seconde passe", comme mentionné dans une Réponse.

Donc, quel ordre doit-il être utilisé?
1. Commencer avec la colonne(s) testé avec =, dans tout commande.
2. Puis virer de bord sur une colonne de plage.
Par exemple, le très-faible sélectivité de la colonne doit venir en premier dans cette:
```
WHERE deleted = 0  AND  the_datetime > NOW() - INTERVAL 7 DAY
INDEX(deleted, the_datetime)
```
La permutation de l'ordre dans l'indice aurait-il totalement ignorer deleted.

(Il y a beaucoup plus de règles pour la commande de colonnes.)
- Est le vote négatif parce que je suis mauvais? Ou parce que j'ai une opinion très forte? Ou quelque chose d'autre?
- n'était pas mon downvote, mais supprimé = 0 pour moi sonne comme il n'est pas faible sélectivité? J'imagine que ce serait majorité des lignes dans la table.
- Je pense que cela signifie "faible sélectivité" -- Qui est, à l'aide de deleted n'aide pas beaucoup pour filtrer les indésirables lignes. Avez-vous un meilleur exemple? (C'est celui qui surgit dans mon esprit quand j'ai écrit la Réponse.)
- Incompréhension de ma part.
InformationsquelleAutor Rick James

Vous devez vous connecter pour publier un commentaire.