Trouver la différence entre deux grandes tables PostgreSQL

J'ai deux tables dans Postgres avec juste un de 32 octets de terrain latino (simple hash md5).
Les deux tables ont ~30 000 000 de lignes. Les Tables ont peu de différence (10 à 1 000 lignes sont différentes)

Est-il possible avec Postgres pour trouver une différence entre ces tables, le résultat devrait être de 10 à 1 000 lignes que j'ai décrit ci-dessus.

Ce n'est pas une tâche réelle, je veux juste savoir comment PostgreSQL traite REJOIGNEZ-comme logique.

regarde sur ce Comment comparer deux tables dans postgres et ce afin d'accélérer la diff Comment puis-je accélérer une diff entre les tables?
Donc, avez-vous votre réponse?
Oui: Hadoop....

OriginalL'auteur odiszapc | 2013-03-11

22

La meilleure option est probablement un EXISTE anti-semi-jointure:

tbl1 est la table avec les surplus de lignes dans cet exemple:
```
SELECT *
FROM   tbl1
WHERE  NOT EXISTS (SELECT 1 FROM tbl2 WHERE tbl2.col = tbl1.col);
```
Si vous ne savez pas laquelle le tableau a de l'excédent des lignes ou deux, vous pouvez répéter la requête ci-dessus après le changement de noms de table, ou:
```
SELECT *
FROM   tbl1
FULL   OUTER JOIN tbl2 USING (col)
WHERE  tbl2 col IS NULL OR
       tbl1.col IS NULL;
```
Vue d'ensemble des techniques de base dans un post plus tard:
- Sélectionnez les lignes qui ne sont pas présents dans une autre table
BTW, il serait beaucoup plus efficace d'utiliser uuid des colonnes pour les hachages md5:
- Convertir hex dans le texte de la représentation d'un nombre décimal
- Serait index de recherche nettement plus rapide avec char vs varchar lorsque toutes les valeurs sont 36 caractères
Supercool solution! Super!

OriginalL'auteur Erwin Brandstetter
1

Pour augmenter les réponses existantes-je utiliser le row() fonction de la condition de jointure. Cela permet de comparer des lignes entières. E. g. ma requête typique de voir la différence symétrique ressemble à ceci
```
select *
from tbl1
full outer join tbl2 
    on row(tbl1) = row(tbl2)
where tbl1.col is null
or    tbl2.col is null
```
OriginalL'auteur ThomasH
-1

Dans mon expérience, PAS DANS une sous-requête prend un temps très long. Je le ferais avec un inclusive rejoindre:
```
DELETE FROM table1 where ID IN (
SELECT id FROM table1
LEFT OUTER JOIN table2 on table1.hashfield = table2.hashfield
WHERE table2.hashfield IS NULL)
```
Et puis faire la même chose dans l'autre sens pour l'autre table.

Notez que NOT IN est différent en principal de NOT EXISTS. NULL la manipulation est différente, ce qui fait NOT IN plus cher.

OriginalL'auteur 0xCAFEBABE

Vous devez vous connecter pour publier un commentaire.