Oracle: comment “groupe” sur une plage?

Si j'ai un tableau comme ceci:

Je peux "group by" pour obtenir un effectif de chaque âge.

select age,count(*) n from tbl group by age;
age  n
---  -
  5  1
  8  1
 12  2
 22  1

Ce requêtes puis-je utiliser pour groupe par tranches d'âge?

  age  n
-----  -
 1-10  2
11-20  2
20+    1

Je suis sur 10gR2, mais je serais intéressé par toute 11g-approches spécifiques ainsi.

InformationsquelleAutor Mark Harrison | 2010-03-20

56
```
SELECT CASE 
         WHEN age <= 10 THEN '1-10' 
         WHEN age <= 20 THEN '11-20' 
         ELSE '21+' 
       END AS age, 
       COUNT(*) AS n
FROM age
GROUP BY CASE 
           WHEN age <= 10 THEN '1-10' 
           WHEN age <= 20 THEN '11-20' 
           ELSE '21+' 
         END
```
- Ce devrait être la première et la seule réponse à cette question. Pourrait utiliser un peu plus de mise en forme si.
- Non, les CAS énoncés à court circut de l'évaluation
- Comment serait court circut évaluation cause d'un problème dans cette requête? Parce que les cas sont commandés et utiliser <= puis le bon groupe est toujours repris. N'est-ce pas?
- Adrian votre correct, c'était en réponse à un commentaire précédent qui a depuis été supprimé.
- Est-il un moyen pour inclure une plage avec pas de lignes. exemple: si il n'y a personne au-dessus de 20, la requête retourne une ligne de (20+, 0)?
InformationsquelleAutor Einstein
25

Essayer:
```
select to_char(floor(age/10) * 10) || '-' 
|| to_char(ceil(age/10) * 10 - 1)) as age, 
count(*) as n from tbl group by floor(age/10);
```
- habile utilisation du sol/de la division!
- Cette approche est meilleure lorsque nous avons un modèle défini et des groupes peut être calculée à l'aide d'une expression. Il ne nécessite pas de mentionner explicitement les groupes dans la requête, et donc sera en mesure de fournir de nouveaux groupes sans modification de la requête ....
- Cela ne fonctionne pas, il en résulte la erreur ORA-00979: pas un GROUPE PAR l'expression parce que ceil(age/10) est manquant dans le GROUPE PAR l'expression. Mais la direction de cette approche est mieux que @NitinMidha écrit, alors je vote cette réponse jusqu'.
InformationsquelleAutor Matthew Flaschen
10

Ce que vous cherchez, est à la base de données pour un histogramme.

Vous aurait l'âge (ou l'âge de gamme) sur l'axe des x et le nombre n (ou la fréquence) sur l'axe des y.

Dans la forme la plus simple, on pourrait simplement compter le nombre de chaque âge distinct de la valeur comme vous avez déjà décrites:
```
SELECT age, count(*)
FROM tbl
GROUP BY age
```
Quand il y a trop de valeurs pour l'axe des x cependant, on peut vouloir créer des groupes (ou clusters ou des seaux). Dans votre cas, vous groupe par une constante de gamme de 10.

Nous pouvons éviter d'écrire un WHEN ... THEN ligne pour chaque gamme, il pourrait y avoir des centaines, si ce n'était pas une question d'âge. Au lieu de cela, l'approche par @MatthewFlaschen est préférable pour les raisons mentionnées par @NitinMidha.

Maintenant nous allons créer le SQL...

Tout d'abord, nous avons besoin de diviser les âges dans la gamme de groupes de 10 comme suit:
- 0-9
- 10-19
- 20 - 29
- etc.
Ceci peut être obtenu en divisant la colonne âge par 10, puis à calculer le résultat de l'ÉTAGE:
```
FLOOR(age/10)
```
"ÉTAGE retourne le plus grand entier inférieur ou égal à celui n"
http://docs.oracle.com/cd/E11882_01/server.112/e26088/functions067.htm#SQLRF00643

Puis nous prenons la version d'origine de SQL et de les remplacer âge avec cette expression:
```
SELECT FLOOR(age/10), count(*)
FROM tbl
GROUP BY FLOOR(age/10)
```
C'est OK, mais nous ne pouvons pas voir la gamme, encore. Au lieu de cela on ne voit que le calcul de plancher des valeurs qui sont 0, 1, 2 ... n.

D'obtenir le véritable borne inférieure, nous avons besoin de le multiplier avec 10 de nouveau afin d'obtenir 0, 10, 20 ... n:
```
FLOOR(age/10) * 10
```
Nous avons aussi besoin de la limite supérieure de chaque plage est inférieur lié + 10 - 1 ou
```
FLOOR(age/10) * 10 + 10 - 1
```
Enfin, nous concaténer les deux dans une chaîne de caractères comme ceci:
```
TO_CHAR(FLOOR(age/10) * 10) || '-' || TO_CHAR(FLOOR(age/10) * 10 + 10 - 1)
```
Cela crée '0-9', '10-19', '20-29' etc.

Maintenant notre SQL ressemble à ceci:
```
SELECT 
TO_CHAR(FLOOR(age/10) * 10) || ' - ' || TO_CHAR(FLOOR(age/10) * 10 + 10 - 1),
COUNT(*)
FROM tbl
GROUP BY FLOOR(age/10)
```
Enfin, appliquer une commande et de nice les alias de colonne:
```
SELECT 
TO_CHAR(FLOOR(age/10) * 10) || ' - ' || TO_CHAR(FLOOR(age/10) * 10 + 10 - 1) AS range,
COUNT(*) AS frequency
FROM tbl
GROUP BY FLOOR(age/10)
ORDER BY FLOOR(age/10)
```
Toutefois, dans des scénarios plus complexes, ces plages peuvent pas être regroupés en constante morceaux de taille 10, mais besoin de clustering dynamique.
Oracle est plus avancée de l'histogramme pour les fonctions, voir http://docs.oracle.com/cd/E16655_01/server.121/e15858/tgsql_histo.htm#TGSQL366

Crédits à @MatthewFlaschen pour son approche; j'ai seulement expliqué les détails.

InformationsquelleAutor Wintermute

Voici une solution qui crée une "gamme" de la table dans une sous-requête, puis l'utilise pour partitionner les données de la table principale:

SELECT DISTINCT descr
  , COUNT(*) OVER (PARTITION BY descr) n
FROM age_table INNER JOIN (
  select '1-10' descr, 1 rng_start, 10 rng_stop from dual
  union (
  select '11-20', 11, 20 from dual
  ) union (
  select '20+', 21, null from dual
)) ON age BETWEEN nvl(rng_start, age) AND nvl(rng_stop, age)
ORDER BY descr;

InformationsquelleAutor Dan

J'ai eu de groupe de données par le nombre de transactions est apparu dans une heure. Je l'ai fait par l'extraction de l'heure de l'horodatage:

select extract(hour from transaction_time) as hour
      ,count(*)
from   table
where  transaction_date='01-jan-2000'
group by
       extract(hour from transaction_time)
order by
       extract(hour from transaction_time) asc
;

Donner de sortie:

HOUR COUNT(*)
---- --------
   1     9199 
   2     9167 
   3     9997 
   4     7218

Comme vous pouvez le voir, ce qui donne un joli moyen facile de regroupement, le nombre d'enregistrements par heure.

InformationsquelleAutor Clarkey

1

ajouter un age_range table et un age_range_id champ à votre table et le groupe en place.

//excuse le DDL mais vous devriez obtenir l'idée
```
create table age_range(
age_range_id tinyint unsigned not null primary key,
name varchar(255) not null);

insert into age_range values 
(1, '18-24'),(2, '25-34'),(3, '35-44'),(4, '45-54'),(5, '55-64');
```
//encore une fois excuse de la DML, mais vous devriez obtenir l'idée
```
select
 count(*) as counter, p.age_range_id, ar.name
from
  person p
inner join age_range ar on p.age_range_id = ar.age_range_id
group by
  p.age_range_id, ar.name order by counter desc;
```
Vous pouvez affiner cette idée si vous le souhaitez - ajouter from_age to_age colonnes dans la age_range table, etc - mais je vais laisser cela à vous.

espère que cela aide 🙂
- À en juger par les autres réponses, la performance et la flexibilité sont des critères importants. Les plans d'explication pour toutes les requêtes dynamiques répertoriées sont horribles et que vous souhaitez modifier code si vos tranches d'âge changé. Chacun pour soi, je suppose 😛
- 1 scan complet va toujours être plus rapide que les 2 scans complets. Aussi, les gens qui demandent de l'âge de la gamme statistiques ont probablement eu les mêmes gammes pour durer 20 ans et n'avons pas l'intention de changer cela.
- Je suis sûr que le physique de la colonne à effectuer des dérivés/valeur calculée. Enfait c'est probablement un candidat idéal pour une image bitmap d'index. Je préfère encore utiliser une table de recherche que de coder en dur des valeurs dans mes applications. L'ajout d'une nouvelle tranche d'âge-dire, de 14 à 16 ans et je suis de l'insertion d'une nouvelle ligne vs élever une demande de changement, de passer du temps à coder et tester les modifications et libérant en prod.
InformationsquelleAutor Jon Black

Si vous utilisez Oracle 9i+, vous pourrait être en mesure d'utiliser le NTILE analytique de la fonction:

WITH tiles AS (
  SELECT t.age,
         NTILE(3) OVER (ORDER BY t.age) AS tile
    FROM TABLE t)
  SELECT MIN(t.age) AS min_age,
         MAX(t.age) AS max_age,
         COUNT(t.tile) As n
    FROM tiles t
GROUP BY t.tile

La mise en garde à NTILE, c'est que vous ne pouvez spécifier que le nombre de partitions, pas les points de rupture eux-mêmes. Si vous avez besoin de spécifier un nombre approprié. C'est à dire: Avec 100 lignes, NTILE(4) attribuera 25 lignes pour chacun des quatre compartiments/partitions. Vous ne pouvez pas imbriquer les fonctions analytiques, de sorte que vous auriez à les superposer à l'aide de sous-requêtes/sous-requête d'affacturage pour obtenir granularité souhaitée. Sinon, utilisez:

  SELECT CASE t.age
           WHEN BETWEEN 1 AND 10 THEN '1-10' 
           WHEN BETWEEN 11 AND 20 THEN '11-20' 
           ELSE '21+' 
         END AS age, 
         COUNT(*) AS n
    FROM TABLE t
GROUP BY CASE t.age
           WHEN BETWEEN 1 AND 10 THEN '1-10' 
           WHEN BETWEEN 11 AND 20 THEN '11-20' 
           ELSE '21+' 
         END

InformationsquelleAutor OMG Ponies

1

J'ai eu pour obtenir le nombre d'échantillons par jour. Inspiré par @Clarkey j'ai utilisé TO_CHAR pour extraire la date de l'échantillon de l'horodatage d'un ISO-8601 format de la date et utilisé que dans le GROUP BY et ORDER BY clauses. (Plus d'inspiration, j'ai aussi poster ici au cas où il est utile à d'autres.)
```
SELECT 
  TO_CHAR(X.TS_TIMESTAMP, 'YYYY-MM-DD') AS TS_DAY, 
  COUNT(*) 
FROM   
  TABLE X
GROUP BY
  TO_CHAR(X.TS_TIMESTAMP, 'YYYY-MM-DD')
ORDER BY
  TO_CHAR(X.TS_TIMESTAMP, 'YYYY-MM-DD') ASC
/
```
InformationsquelleAutor Kieron Hardy

Mon approche:

select range, count(1) from (
select case 
  when age < 5 then '0-4' 
  when age < 10 then '5-9' 
  when age < 15 then '10-14' 
  when age < 20 then '15-20' 
  when age < 30 then '21-30' 
  when age < 40 then '31-40' 
  when age < 50 then '41-50' 
  else                '51+' 
end 
as range from
(select round(extract(day from feedback_update_time - feedback_time), 1) as age
from txn_history
) ) group by range

J'ai flexibilité dans la définition des gammes de
Je n'ai pas répéter les gammes de sélectionner et regrouper des clauses
mais quelqu'un s'il vous plaît dites-moi, comment les classer par ordre de grandeur!

InformationsquelleAutor Ananth N

Pouvez-vous essayer ci-dessous la solution:

SELECT count (1), '1-10'  where age between 1 and 10
union all 
SELECT count (1), '11-20'  where age between 11 and 20
union all
select count (1), '21+' where age >20
from age

InformationsquelleAutor sudarshan vp

Vous devez vous connecter pour publier un commentaire.