Pourquoi MySQL permettent de “group by” les requêtes SANS les fonctions d'agrégation?

Surprise -- c'est parfaitement valide requête MySQL:

select X, Y from someTable group by X

Si vous avez essayé cette requête dans la base de données Oracle ou SQL Server, vous devez obtenir l'naturelles message d'erreur:

Column 'Y' is invalid in the select list because it is not contained in 
either an aggregate function or the GROUP BY clause.

Alors, comment MySQL déterminer qui Y à afficher pour chaque X? Il choisit juste un. À partir de ce que je peux dire, il choisit juste le premier il Y trouve. Le raisonnement étant, si Y n'est ni une fonction d'agrégation, ni dans la clause group by, puis en spécifiant “sélectionnez-Y” dans votre requête n'a pas de sens pour commencer. Donc, j'ai comme le moteur de base de données sera de retour ce que je veux, et vous l'aimerez.

Il y a même une configuration de MySQL paramètre pour désactiver ce “relâchement”.
http://dev.mysql.com/doc/refman/5.7/en/sql-mode.html#sqlmode_only_full_group_by

Cet article mentionne même comment MySQL a été critiqué pour être ANSI-SQL non conformes à cet égard.
http://www.oreillynet.com/databases/blog/2007/05/debunking_group_by_myths.html

Ma question est: Pourquoi a été MySQL conçu de cette façon? Ce qui était leur raison d'être pour rompre avec la norme ANSI-SQL?

Permettez-moi de cette façon. Je vois ce choix de conception comme étant équivalent à un langage de programmation le choix de permettre et d'ignorer, de dire, de laisser "null" être à gauche de la valeur. par exemple, la valeur "null = 3". Il n'y a aucune raison de laisser cela se produire. C'est le genre d'erreur qui est toujours et dangereusement erronée.
non-sens, qui peut avoir été le cas avant 5.x
Pouvez-vous donner une référence à votre affirmation?
Oh, l'homme, j'ai voulu quelque chose ressemblant à ceci, tant dans SQL Server. J'ai toujours imaginé comme "je veux que la "PICKANY(col)," la fonction d'agrégation, ou mieux encore le "UNIQUEVALUE(col) de la fonction", ce qui serait d'erreur si il s'avère ne PAS être constante dans l'ensemble du groupe. J'ai tendance à utiliser "MAX(col)" comme mon "toutes les valeurs sont les mêmes, me donner la valeur" fonction d'agrégation
Désolé, le commentaire ci-dessus a été un rambly façon de dire "de l'OMI, la réponse serait, car cette fonctionnalité est très utile. Mais je n'ai pas de citation, autres que les "parce que je le veux'".

InformationsquelleAutor Aaron Fi | 2009-08-03

20

Je crois que c'est pour gérer le cas où le regroupement d'un champ qui impliquerait d'autres domaines sont également regroupés:
```
SELECT user.id, user.name, COUNT(post.*) AS posts 
FROM user 
  LEFT OUTER JOIN post ON post.owner_id=user.id 
GROUP BY user.id
```
Dans ce cas l'utilisateur.le nom sera toujours unique pour chaque utilisateur.id, donc il y a de la commodité de ne pas exiger de l'utilisateur.nom dans le GROUP BY de l'alinéa (bien que, comme vous le dites, il est certain champ d'application à des problèmes)
- Donc, c'était juste pour économiser un peu de temps (comme dans la saisie au clavier)? Heh.
- Moins de colonnes dans la clause GROUP BY est plus rapide en temps d'exécution c'est donc une optimisation de hack. Je suis constrantly à l'aide de MAX(user.name) AS name dans les requêtes semblables sur la norme ANSI SQL implémentations.
- de la foutaise. de l'utilisateur.le nom est soit dans le groupe par ou dans un agrégat. C'est au mieux ambiguë Voir les commentaires stackoverflow.com/questions/6060241/... Seulement MySQL permet ce genre de connerie, par exemple stackoverflow.com/q/6642241/27535
- Les déchets à quoi? En utilisant quelque chose comme SELECT user.id, ANY(user.name) .. GROUP BY user.id n'est pas indeterministic si il y a un PK de l'utilisateur.id. Évidemment, les seaux de l'utilisateur.nom du sont ramassés à partir de la va contenir qu'une seule valeur unique -- le nom de l'utilisateur dont l'id est groupé. À l'aide de MAX(user.name) AS name ou de tout autre aggragate est difficile, au mieux (même si l'intention est plus clairement documentée). Pourrait être un cas de "Ça dépend" de nouveau..
- Postgresql facilite ce genre de fonctionnalité et de manière contrôlée: ienablemuch.com/2010/08/postgresql-recognizing-functional.html
- Autant que je sache, la dernière version de SQL standard exige que tous les champs sélectionnés pour être des champs de groupe ou d'agréger les champs ou domaines déterminés pour le groupe, tels que de l'utilisateur.nom dans l'exemple ci-dessus. Si MySQL est conforme à la dernière norme dans la mesure où ils vous permettent de sélectionner les champs qui ne sont ni des champs de groupe, ni agrégé champs de mais déterminée, pour le groupe - une chose que beaucoup d'autres sgbd ne pas autoriser. Toutefois, MySQL sauts de conformité à la norme en ne vérifiant pas si le terrain est vraiment déterminée, permettant ainsi à durée indéterminée domaines. [dans la suite]
- Il est sans doute difficile pour un sgbd fiable pour savoir si un champ sélectionné serait déterminée ou non. Postgres est trop restrictive en ce point, MySQL trop docile.
InformationsquelleAutor Cebjyre
23

Selon cette page (5,0 manuel en ligne), c'est pour de meilleures performances et le confort de l'utilisateur.
- +1, pour le MySQL réponse :). J'en utilise tout le temps pour éviter de faire une sous-requête qui ne un ORDER BY ... LIMIT 1 ... vous avez juste à être prudent quant à savoir que les données que vous recevez dans le non-agrégées colonnes sera aléatoire de toutes les lignes qui correspondent à vos conditions.
- Le lien est mort, pouvez-vous mettre à jour? ou encore mieux insérer les docs ici en cas de casse de nouveau
- Mise à jour lien
InformationsquelleAutor Miroslav Genev
2

Malheureusement presque tous les SQL variétés dans des situations où ils cassent ANSI et avoir des résultats imprévisibles.

Il me semble qu'ils l'ont prévu d'être traité comme le "PREMIER(Y)" fonction que de nombreux autres systèmes ont.

Plus que probable, cette construction est quelque chose que MySQL équipe de regret, mais vous ne voulez pas arrêter de soutenir en raison du nombre de demandes qui seraient en rupture.

Rob

InformationsquelleAutor Rob Farley
1

MySQL traite c'est une seule colonne DISTINCTE lorsque vous utilisez le GROUPE de sans une fonction d'agrégation. L'utilisation d'autres options, soit vous avez la totalité du résultat de l'autre, ou d'avoir à utiliser des sous-requêtes, etc. La question est de savoir si les résultats sont vraiment prévisibles.

Aussi, de bonnes info est ce fil.

InformationsquelleAutor GL_Stephen
0

De ce que j'ai lu dans la référence de mysql page, il est dit:
"Vous pouvez utiliser cette fonction pour obtenir de meilleures performances en évitant les colonnes de tri et de regroupement. Cependant, c'est surtout utile lorsque toutes les valeurs de chaque nonaggregated colonne nom ne figure pas dans le GROUPE sont les mêmes pour chaque groupe."

Je vous suggère de lire cette page (lien vers le manuel de référence de mysql):
http://dev.mysql.com/doc/refman/5.5/en//group-by-extensions.html

InformationsquelleAutor Giancarlo Nebiolo Navidad
-1

Sa en fait un outil très utile que tous les autres champs n'ont pas à être dans une fonction d'agrégation lorsque vous groupe par un champ. Vous pouvez manipuler le résultat qui sera retourné par le simple fait de commander d'abord, puis le groupement des après. par exemple, si je voulais obtenir des informations de connexion utilisateur et je voulais voir la dernière fois l'utilisateur connecté, je voudrais faire cela.

Tables
```
USER
user_id | name

USER_LOGIN_HISTORY 
user_id | date_logged_in
```
USER_LOGIN_HISTORY a plusieurs lignes pour un seul utilisateur, donc si j'ai rejoint des utilisateurs, il serait de retour, le nombre de lignes. comme je ne m'intéresse qu'à la dernière entrée, je voudrais faire cette
```
select 
  user_id,
  name,
  date_logged_in

from(

  select 
    u.user_id, 
    u.name, 
    ulh.date_logged_in

  from users as u

    join user_login_history as ulh
      on u.user_id = ulh.user_id

  where u.user_id = 1234

  order by ulh.date_logged_in desc 

)as table1

group by user_id
```
Ce serait de retour une ligne avec le nom de l'utilisateur et la dernière fois que l'utilisateur connecté.
- Mon exemple ci-dessus est uniquement utilisé uniquement pour montrer comment vous pouvez manipuler le résultat retourné. Je ne dis pas que cela est de savoir comment vous serait de retour que l'information de la façon la plus simple. Vous devez utiliser la fonction MAX. Avec beaucoup plus de requêtes complexes, il devient très utile d'être en mesure de groupe sans les fonctions d'agrégation utilisé sur tous les autres champs
- Cet exemple artificiel est à la fois plus long et plus lent que de simplement faire un simple "max" et par conséquent ne prend pas en charge votre réclamation que c'est "un outil très utile à tous. Si vous ne pouvez même pas imaginer, un exemple il être utile, j'ai sérieusement la question de son utilité. Aussi, je ne crois pas qu'intentionnellement, à l'aide de ce qui est souvent une période indéterminée fonctionnalité va obtenir plus utile dans plus des requêtes complexes.
InformationsquelleAutor Nick Dennies

Vous devez vous connecter pour publier un commentaire.