La ruche se n premiers enregistrements du groupe par requête

J'ai tableau suivant dans la ruche

identifiant de l'utilisateur, l'utilisateur nom de l'utilisateur, l'adresse,les clics,les impressions,page-id,page-nom

J'ai besoin de savoir le top 5 des utilisateurs[nom d'utilisateur,nom d'utilisateur,l'utilisateur adresse] par les clics pour chaque page [page id de la page-nom]

Je comprends que nous devons premier groupe par [page id de la page-nom] et au sein de chaque groupe, je veux orderby [les clics,les impressions] desc puis émettent uniquement top 5 des utilisateurs[nom d'utilisateur, nom d'utilisateur, l'utilisateur adresse] pour chaque page, mais je trouve qu'il est difficile de construire la requête.

Comment pouvons-nous faire cela à l'aide de la Ruche UDF ?

InformationsquelleAutor TopCoder | 2012-02-22

9

Vous pouvez le faire avec un rang (le titre) de l'UDF, il est décrit ici: http://ragrawal.wordpress.com/2011/11/18/extract-top-n-records-in-each-group-in-hadoophive/
```
SELECT page-id, user-id, clicks
FROM (
    SELECT page-id, user-id, rank(user-id) as rank, clicks
    FROM mytable
    DISTRIBUTE BY page-id, user-id
    SORT BY page-id, user-id, clicks desc
) a 
WHERE rank < 5
ORDER BY page-id, rank
```
- Salut Maxime, Désolé de vous déranger comme ça. J'ai aussi eu le même problème. J'ai posté sur le, mais n'ai pas de bonne réponse que je suis en train de travailler avec la Ruche et HiveQL est nouveau pour moi. http://stackoverflow.com/questions/11405446/find-10-latest-record-for-each-buyer-id-for-yesterdays-date. Il sera d'une grande aide pour moi.
- Je viens de mettre dans des heures à faire ce travail, mais il ne fonctionne pas. Le bug, c'est que vous êtes le premier rang et ensuite de faire DISTRIBUER PAR et de les TRIER PAR. Au lieu de cela, vous devriez demander le rang dans une requête externe et l'utilisation de DISTRIBUER PAR et de TRI dans une requête interne. Par exemple, SÉLECTIONNEZ la page-id, id utilisateur, les clics sur (SÉLECTIONNER la page-id, id utilisateur, rang(user-id) que le grade, clique from (SELECT * from mytable DISTRIBUER PAR page-id, user-id de TRIER PAR page-id, id utilisateur, les clics DESC)a )b OÙ le rang < 5 COMMANDE PAR page-id, le rang;
- A confirmé que @HimanshuGahlot est correct. La réponse a un BUG! Vous devez utiliser le rang() dans une requête externe et l'utilisation de DISTRIBUER/TRI dans la requête interne!
InformationsquelleAutor Maxime Brugidou
15

Révisé réponse, la fixation du bug, comme mentionné par @Himanshu Gahlot
```
SELECT page-id, user-id, clicks
FROM (
    SELECT page-id, user-id, rank(page-id) as rank, clicks FROM (
        SELECT page-id, user-id, clicks FROM mytable
        DISTRIBUTE BY page-id
        SORT BY page-id, clicks desc
) a ) b
WHERE rank < 5
ORDER BY page-id, rank
```
Remarque que le rang() udaf, nous est appliqué à la page-id de la colonne, dont la nouvelle valeur est utilisée pour rétablir ou augmenter le grade de contre (par exemple de réinitialisation du compteur pour chaque page-id de partition)
- Cool.. Il m'a sauvé la recherche 🙂
- La dernière commande par rang ne fonctionne pas parce que le rang n'a pas été sélectionnée lors de la ultrapériphériques niveau.
InformationsquelleAutor Hai-Anh Trinh
11

Comme de la Ruche 0.11, vous pouvez le faire à l'aide de la Ruche est construit dans le classement() et la fonction à l'aide de plus simple sémantique à l'aide de La ruche est intégré dans google Analytics et les fonctions de Fenêtrage. Malheureusement, je ne pouvais pas trouver autant d'exemples de ce que j'aurais aimé, mais ils sont vraiment, vraiment utile. À l'aide de ceux qui, à la fois de rang() et WhereWithRankCond sont intégrés, de sorte que vous pouvez faire:
```
SELECT page-id, user-id, clicks
FROM (
    SELECT page-id, user-id, rank() 
           over (PARTITION BY page-id ORDER BY clicks DESC) as rank, clicks 
    FROM my table
) ranked_mytable
WHERE ranked_mytable.rank < 5
ORDER BY page-id, rank
```
Pas de UDF nécessaire, et un seul sous-requête! Aussi, tous les rang de la logique est localisée.

Vous pouvez en trouver d'autres (mais pas assez à mon goût) des exemples de ces fonctions dans ce Jira et sur ce type de blog.

InformationsquelleAutor Eli

Vous pouvez utiliser each_top_k function de hivemall efficace pour une top-k calcul sur Apache Hive.

sélectionnez 
page-id, 
identifiant de l'utilisateur, 
clics 
à partir de ( 
sélectionnez 
each_top_k(5, page-id, de clics, de page-id, user-id) 
comme (rang, de clics, de page-id, user-id) 
à partir de ( 
sélectionnez 
page-id, id utilisateur, clique sur 
à partir de 
mytable 
DISTRIBUER PAR page-id de TRIER PAR page-id 
) t1 
) t2 
commande par page-id ASC, clics DESC

La each_top_k UDTF est très rapide par rapport à d'autres méthodes de course haut-k requêtes (par exemple, distributed by/rank) dans la Ruche, car il ne détient pas la totalité de classement pour les résultats intermédiaires.

InformationsquelleAutor myui

Disons vos données ressemble à ce qui suit :

page-id   user-id   clicks
page1     user1     10
page1     user2     10
page1     user3     9
page1     user4     8
page1     user5     7
page1     user6     7
page1     user7     6
page1     user8     5
page2     user1     20
page2     user2     19
page2     user3     18

Requête ci-dessous vous donnent :

SELECT page-id, user-id, clicks, rank
FROM (
    SELECT page-id, user-id, rank() 
           over (PARTITION BY page-id ORDER BY clicks DESC) as rank, clicks 
    FROM your_table
) ranked_table
WHERE ranked_table.rank <= 5

Résultat :

page-id   user-id   clicks  rank
page1     user1     10      1
page1     user2     10      1 
page1     user3     9       3 
page1     user4     8       4
page1     user5     7       5 
page1     user6     7       5 
page2     user1     20      1
page2     user2     19      2  
page2     user3     18      3

Donc, pour la page1 vous obtenez 6 utilisateurs, utilisateurs avec le même nombre de clics sont classés de la même.

Mais, si vous êtes à la recherche d'exactement 5 utilisateurs, et de choisir de façon aléatoire dans le cas où plusieurs utilisateurs tombent dans le même rang. Vous pouvez utiliser la sous requête

SELECT page-id, user-id, clicks, rank
FROM (
    SELECT page-id, user-id, row_number() 
           over (PARTITION BY page-id ORDER BY clicks DESC) as rank, clicks 
    FROM your_table
) ranked_table
WHERE ranked_table.rank <= 5

Résultat :

page-id   user-id   clicks  rank
page1     user1     10      1
page1     user2     10      2 
page1     user3     9       3 
page1     user4     8       4
page1     user5     7       5 
page2     user1     20      1
page2     user2     19      2  
page2     user3     18      3

InformationsquelleAutor greperror

Vous devez vous connecter pour publier un commentaire.