Comment trouver les doublons dans la Ruche?

Je veux trouver des lignes en double de celui de la table de la Ruche pour laquelle on m'a donné deux approches.

Première approche consiste à utiliser deux requêtes suivantes:

select count(*) from mytable; // this will give total row count

deuxième requête est comme ci-dessous qui va donner le nombre de lignes distinctes

select count(distinct primary_key1, primary_key2) from mytable;

Avec cette approche, pour l'un de mes tableau total du nombre de lignes obtenues à l'aide de la première requête est 3500 et deuxième requête donne le nombre de lignes de 2700. Donc, il nous dit que 3500 - 2700 = 700 les lignes en double. Mais cette requête n'est pas de dire les lignes qui sont dupliqués.

Mon deuxième approche pour trouver des doublons est:

select primary_key1, primary_key2, count(*)
from mytable
group by primary_key1, primary_key2
having count(*) > 1;

Requête ci-dessus devrait liste de lignes qui sont dupliqués et combien de fois ligne particulière est dupliqué. mais cette requête indique zéro rangs ce qui signifie qu'il n'existe pas de lignes en double dans la table.

Donc je voudrais savoir:

Si ma première approche est correcte - si oui, alors comment puis-je trouver les lignes qui sont dupliqués
Pourquoi la deuxième approche ne fournit pas de liste de lignes qui sont dupliqués?
Est-il un autre moyen de trouver les doublons?

Votre deuxième approche suggère qu'il y a pas de doublons. Je voudrais vérifier les deux clés de NULL valeurs (la plupart des bases de données ne permettent pas de NULL valeurs de clés primaires; peut-être la Ruche permet ce pour les clés composites).
Oui Ruche autorise les valeurs null pour les clés primaires. Elle affectera trouver les doublons?
. . le comptage semble être désactivé. J'ai confiance dans la seconde approche.

InformationsquelleAutor Shekhar | 2017-10-14

hive sql

5

Comme des valeurs nulles et les doublons sont autorisés dans PI, vous devriez faire quelque chose comme ceci:
```
select [every column], count(*)
from mytable
group by [every column]
having count(*) > 1;
```
De cette façon, vous obtiendrez la liste des les lignes en double.
- Merci Alex. J'ai essayé et comme je l'ai mentionné dans ma question, c'est mon deuxième approche. Je voudrais savoir si je devrais avoir confiance en résultat de la première approche ou de la deuxième approche? Comment exactement seconde requête de première approche fonctionne? J'ai obtenu une requête à partir de mon coéquipier.
- Différence, c'est que vous avez besoin d'utiliser non seulement la PI colonnes, chaque colonne dans une table. En va de même pour votre première approche: select count(*) - count(distinct [every column]). count(distinct ...) fonctionne exactement comme vous le souhaitez - compter le nombre de combinaisons uniques de colonnes de passer distinctes. Avec comme [1,2],[1,3],[2,3],[2,3] - serait de retour count(distinct) = 3
InformationsquelleAutor Alex
1

analytique de la fenêtre de la fonction row_number() est très utile et peut fournir les doublons en fonction des éléments précisés dans la partition par la clause. Simplement dans la ligne de vue et existe clause sera alors de faire ressortir les ensembles correspondants des enregistrements contiennent ces doublons dans la table d'origine. Dans certaines bases de données (comme les TD, vous pouvez renoncer à la ligne de vue à l'aide d'un QUALIFIER pragma option)

SQL1 & SQL2 peuvent être combinés. SQL2: Si vous voulez traiter avec des valeurs nulles et non pas simplement rejeter, puis s'unir et de concaténation peut-être mieux dans le
```
SELECT count(1) , count(distinct coalesce(keypart1 ,'') + coalesce(keypart2 ,'') )  
  FROM srcTable s
```
3) Trouve tous les dossiers, et pas seulement l' > 1 enregistrements. Cela fournit toutes les données de contexte ainsi que les clés de sorte qu'il peut être utile lors de l'analyse de pourquoi vous avez des dup et pas seulement les clés.
```
select * from  srcTable s
where exists 
    ( select 1 from (
                SELECT  
                      keypart1,
                      keypart2,
                      row_number() over( partition by keypart1, keypart2 )  seq  
                FROM srcTable t 
                WHERE 
                  -- (whatever additional filtering you want) 
                ) t 
                where seq > 1 
                AND t.keypart1 = s.keypart1
                AND t.keypart2 = s.keypart2
    ) 
```
InformationsquelleAutor rabkaman
0

Supposons que vous voulez obtenir un double des lignes en fonction d'une colonne particulière ID ici. Ci-dessous la requête va vous donner tous les Id qui sont en double dans le tableau dans la ruche.
```
SELECT "ID"
FROM TABLE
GROUP BY "ID"
HAVING count(ID) > 1
```
InformationsquelleAutor Maneesh Bishnoi

Vous devez vous connecter pour publier un commentaire.