La suppression d'un grand nombre de données dans Oracle

Je ne suis pas une base de données de la personne, exactement, et la plupart de mes db de travail a été avec MySQL, donc pardonnez-moi si quelque chose dans cette question est incroyablement naïf.

J'ai besoin de supprimer 5,5 millions de lignes d'une table Oracle qui a près de 100 millions de lignes. J'ai tous les Id des lignes j'ai besoin de supprimer dans une table temporaire. Si c'était juste quelques milliers de lignes, je ferais ceci:

DELETE FROM table_name WHERE id IN (SELECT id FROM temp_table);
COMMIT;

Est-il quelque chose j'ai besoin d'être conscient de, et/ou faire différemment, parce que c'est de 5,5 millions de lignes? J'ai pensé à faire une boucle, quelque chose comme ceci:

DECLARE
  vCT NUMBER(38) := 0;

BEGIN
  FOR t IN (SELECT id FROM temp_table) LOOP
    DELETE FROM table_name WHERE id = t.id;
    vCT := vCT + 1;
    IF MOD(vCT,200000) = 0 THEN
      COMMIT;
    END IF;
  END LOOP;
  COMMIT;
END;

Tout d'abord, est - ce faire ce que je pense qu'il est - le dosage s'engage de 200 000 à un moment? En supposant qu'il est, je ne sais pas encore si c'est mieux pour générer de 5,5 millions de SQL, et de s'engager dans des lots de 200 000, ou d'avoir une instruction SQL et de s'engager à la fois.

Idées? Les meilleures pratiques?

MODIFIER: j'ai couru la première option, la seule instruction delete, et il n'a fallu que 2 heures pour se terminer en développement. Sur cette base, il est en attente d'être exécutés en production.

Vous devriez être en mesure d'utiliser le premier exemple de supprimer les données parce qu'il est dans un tableau.

OriginalL'auteur Sarah Mei | 2009-03-13

14

La première approche est la meilleure, parce que vous donnez l'optimiseur de requête une image claire de ce que vous essayez de faire, au lieu d'essayer de le cacher. Le moteur de base de données peut prendre une approche différente de la suppression de 5,5 m (soit 5,5% de la table) à l'interne qu'à l'effacement de 200k (soit 0,2%).

Voici aussi un l'article massif SUPPRIMER dans Oracle qui vous voudrez peut-être lire.

A de sens que Oracle est mieux optimiser que je suis. Merci pour la réponse, et la référence.
Mais ensuite, vous devez avoir un énorme annuler l'espace de match, ce qui est pourquoi certains d'entre nous forcé de faire la validation du lot
Si vous pouvez vous en sortir avec un grand succès, bien sûr, d'aller pour elle. Tho, il y a encore de nombreuses raisons de s'impliquer dans des lots, en fonction de la charge de travail et des ressources disponibles. Trop souvent, on peut voir chétif bases de données doté d'annuler fichiers de données autoextended à max, généralement juste à côté d'une aussi importante tablespace où une énorme piste de vérification vie n'est plus.

OriginalL'auteur Jiri Klouda
8

Le moyen le plus rapide est de créer un nouveau avec CREATE TABLE AS SELECT à l'aide de NOLOGGING option. Je veux dire:
```
ALTER TABLE table_to_delete RENAME TO tmp;
CREATE TABLE table_to_delete NOLOGGING AS SELECT .... ;
```
Bien sûr, vous devez recréer les contraintes sans les valider, les indices avec nologging, subventions, ... mais c'est très très rapide.

Si vous avez de la difficulté dans la production, vous pouvez effectuer les opérations suivantes:
```
ALTER TABLE table_to_delete RENAME to tmp;
CREATE VIEW table_to_delete AS SELECT * FROM tmp;
-- Until there can be instantly
CREATE TABLE new_table NOLOGGING AS SELECT .... FROM tmp WHERE ...;
<create indexes with nologging>
<create constraints with novalidate>
<create other things...>
-- From here ...
DROP VIEW table_to_delete;
ALTER TABLE new_table RENAME TO table_to_delete;
-- To here, also instantly
```
Vous devez prendre soin de:
- Des procédures stockées peuvent être invalidée, mais ils seront recompilés la deuxième période sont appelés. Vous devez le tester.
- NOLOGGING signifie que minimale refaire sont générés. Si vous avez le rôle de DBA, exécuter un ALTER SYSTEM CHECKPOINT pour s'assurer qu'aucune perte de données si l'instance de crash.
- Pour NOLOGGING le tablespace être aussi dans NOLOGGING.
Une autre option de mieux que de créer des millions d'insertions est de:
```
-- Create table with ids
DELETE FROM table_to_delete
 WHERE ID in (SELECT ID FROM table_with_ids WHERE ROWNUM < 100000);
DELETE FROM table_with_ids WHERE ROWNUM < 100000;
COMMIT;
-- Run this 50 times ;-)
```
Le PLSQL choix n'est pas conseillé parce que peut créer la Instantané trop vieux message à cause que vous êtes la validation (et la clôture de la transaction) avec un curseur ouvert (la boucle) vous souhaitez continuer à l'utiliser. Oracle permet à elle, mais c'est pas une bonne pratique.

Mise à JOUR: Pourquoi je ne peux garantir le dernier PLSQL bloc est d'aller travailler? Parce que je supose que:
- Aucun autre n'est à l'aide de cette table temporaire pour une raison quelconque (dba jobs ou la collecte des statistiques, dab tâches comme le mouvement, l'insertion d'enregistrements, et ainsi de suite). Qui peut être assurée, car c'est un auxiliar de table uniquement pour cela.
- Puis, avec la dernière affirmation, la requête va être exécuté exactement avec le même plan et va retourner les lignes avec le même ordre.
Entendez-vous créer une nouvelle table avec les lignes que je vais garder, puis chute de la table d'origine et renommer le nouveau? Serait la table d'origine, pour certains non-zéro d'un montant de temps, non-existant? Si oui, cela malheureusement ne fonctionne pas comme c'est dans la production. 🙁
Oui, exactement. Vous n'avez pas de temps d'arrêt?
Nous n', mais assez rarement - c'est arrivé une fois dans l'année, j'ai été ici. La politique est généralement que, pour exiger un temps d'arrêt, votre changement de meilleures ont PAS d'AUTRE ALTERNATIVE. 🙂
Comment savez-vous que 'SELECT ID from table_with_ids where ROWNUM < 100000' sélectionne le même id 'DELETE from table_with_ids where ROWNUM < 100000' va supprimer? Vous ne pouvez pas savoir que pour vous, pouvez-vous?
J'ai mis à jour la réponse.

OriginalL'auteur FerranB
7

Lors de l'exécution de massives suppressions dans Oracle, assurez-vous que vous n'êtes pas en cours d'exécution hors de UNDO SEGMENTS.

Lors de l'exécution de DML, Oracle écrit d'abord tous les changements dans le REDO journal (le vieux de données ainsi que les nouvelles données).

Lorsque le REDO journal est rempli ou un délai d'attente se produit, Oracle effectue log synchronization: il écrit new des données dans les fichiers de données (dans votre cas, les marques de la forme de blocs libres), et les écritures anciennes données dans le UNDO tablespace (afin qu'il reste visible pour les transactions simultanées jusqu'à ce que vous commit vos modifications).

Lorsque vous validez vos modifications, de l'espace dans UNDO segments occupés par yuor transaction est libéré.

Cela signifie que si vous supprimez 5M lignes de données, vous aurez besoin d'avoir de l'espace pour all ces lignes dans votre UNDO segments, de sorte que les données peuvent être déplacées en premier (all at once) et supprimé qu'après validation.

Cela signifie également que les requêtes simultanées (le cas échéant) devront lire à partir de REDO journaux ou UNDO segments lors de l'exécution d'analyses de la table. Ce n'est pas le moyen le plus rapide pour accéder à des données.

Cela signifie également que si l'optimiseur de sélectionner HASH JOIN pour votre suppression de la requête (ce qui sera probablement le faire), et la table temporaire ne rentre pas dans le HASH_AREA_SIZE (qui sera très probablement être le cas), alors la requête devra several scanne sur la grande table, et de certaines parties de la table sera déjà déménagé dans REDO ou UNDO.

Donné tous dit ci-dessus, vous feriez probablement mieux de supprimer des données dans 200,000 morceaux et valider les modifications entre les deux.

Donc, vous, d'abord, se débarrasser des problèmes décrits ci-dessus et, d'autre part, d'optimiser votre HASH_JOIN, que vous aurez le même nombre de lectures, mais le lit eux-mêmes seront plus efficaces.

Dans votre cas, cependant, je voudrais essayer de forcer l'optimiseur à utiliser NESTED LOOPS, que je pense qu'il sera plus rapide dans votre cas.

Pour ce faire, assurez-vous que votre temp table possède une clé primaire sur ID, et de réécrire votre requête comme suit:
```
DELETE  
FROM   (
       SELECT  /*+ USE_NL(tt, tn) */
               tn.id
       FROM    temp_table tt, table_name tn
       WHERE   tn.id = tt.id
       )
```
Vous aurez besoin de la clé primaire sur temp_table pour cette requête au travail.

Comparer avec les éléments suivants:
```
DELETE  
FROM   (
       SELECT  /*+ USE_HASH(tn tt) */
               tn.id
       FROM    temp_table tt, table_name tn
       WHERE   tn.id = tt.id
       )
```
voir ce qui est plus rapide et s'en tenir à cela.

OriginalL'auteur Quassnoi
6

C'est mieux de tout faire à la fois, comme dans votre premier exemple. Mais je serais certainement aller dessus avec votre DBA première depuis mai, ils veulent récupérer les blocs que vous n'utilisez plus, après la purge. Aussi, il peut y avoir des préoccupations concernant les horaires qui ne sont normalement pas visibles à partir du point de vue utilisateur.

Ok, merci. J'ai vu des scripts de mise à jour des millions de lignes dans une table unique similaire à celui de la boucle - est-ce que ça sous-optimale?
Oui. aussi sous-optimale.
Seulement essayer de récupérer les blocs si ces enregistrements ont été une partie d'une grande erreur. Si ces documents étaient des conditions normales de fonctionnement, laissez les blocs seul, vous aurez à les utiliser de nouveau par la suite.

OriginalL'auteur Jon Ericson
4

Si votre version d'origine de SQL prend un temps très long, certains simultanées Sql peut s'exécuter lentement qu'ils ont à utiliser la commande ANNULER pour reconstruire une version des données sans votre les modifications non validées.

Un compromis pourrait être quelque chose comme
```
FOR i in 1..100 LOOP
  DELETE FROM table_name WHERE id IN (SELECT id FROM temp_table) AND ROWNUM < 100000;
  EXIT WHEN SQL%ROWCOUNT = 0;
  COMMIT;
END LOOP;
```
Vous pouvez ajuster ROWNUM que nécessaire. Un petit ROWNUM moyens de plus en plus fréquentes s'engage et (probablement) une réduction de l'impact sur d'autres sessions en termes de devoir demander une annulation. Toutefois, selon les plans d'exécution, il peut y avoir d'autres incidences, et il prendra probablement plus de temps ensemble.
Techniquement, le "POUR" une partie de la boucle est inutile, car la SORTIE ce sera la fin de la boucle. Mais je suis paranoïaque à propos illimité boucles que c'est une douleur pour tuer la session si elles ne se coincent.

Est-il besoin d'être ROWNUM < i*100000? Ou peut-être quelque chose comme ROWNUM > (i-1)*100000 ET ROWNUM <= i*100000.
Intéressante approche hybride en tout cas. Merci pour la réponse.
le plus vous validez le plus probable que vous obtenez un ORA-01555.
Marque:Dans l'exemple, je ne suis pas tenue de tout les curseurs ouverts au cours de la commettre, alors ne pas en obtenir un ORA-01555 ici. Si il n'y a rien en dehors de la boucle, il y a un risque, mais ce serait la même s'il y a un commit ou un mille.
Sarah: Pas besoin de la variable de boucle (i) dans le numéro de rangée de la clause. C'est juste successives supprime des centaines de milliers de lignes à chaque fois jusqu'à ce qu'il n'y a plus de gauche à supprimer.

OriginalL'auteur Gary Myers
4

Je recommande l'exécution de cette comme un simple delete.

Sont là tout enfant tables de celui que vous êtes en train de supprimer à partir de? Si oui, assurez-vous que la clé étrangère dans ces tableaux est indexé. Sinon, vous risquez de faire un balayage complet de la table enfant pour chaque ligne vous supprimer ce qui pourrait rendre les choses très lent.

Vous souhaitez que certaines façons de vérifier le progrès de la supprimer, car il fonctionne. Voir Comment vérifier la base de données oracle pour des requêtes de longue durée?

Que d'autres personnes ont suggéré, si vous voulez tester le l'eau, vous pouvez mettre: rownum < 10000 sur la fin de votre requête.

+1 pour les étrangers, le contrôle de la clé. Assurent que toutes les doit être indexés...

OriginalL'auteur WW.

J'ai fait quelque chose de similaire dans le passé avec Oracle 7, où j'ai dû supprimer des millions de lignes de milliers de tables. Pour tous autour de la performance et surtout le grand supprime (millions de lignes de plus dans un tableau) ce script fonctionnait bien.

Vous aurez à modifier légèrement (ie: examiner les utilisateurs/mots de passe, ainsi que d'obtenir des rollback segments de droite). Aussi vous avez vraiment besoin d'en discuter avec votre DBA et l'exécuter dans un environnement de TEST en premier. Ayant dit tout cela, c'est assez facile. La fonction delete_sql() cherche un lot de rowids dans la table que vous spécifiez puis les supprime lot par lot. Par exemple;

exec delete_sql('MSF710', 'select rowid from msf710 s where  (s.equip_no, s.eq_tran_date, s.comp_data, s.rec_710_type, s.seq_710_no) not in  (select c.equip_no, c.eq_tran_date, c.comp_data, c.rec_710_type, c.seq_710_no  from  msf710_sched_comm c)', 500);

L'exemple ci-dessus est la suppression de 500 enregistrements à la fois à partir de la table MSF170 basé sur une instruction sql.

Si vous avez besoin de supprimer des données à partir de plusieurs tables, il suffit d'inclure supplémentaires exec delete_sql(...) lignes dans le fichier de supprimer les tables.sql

Oh, et n'oubliez pas de mettre un rollback segments de nouveau en ligne, il n'est pas dans le script.

spool delete-tables.log;
connect system/SYSTEM_PASSWORD
alter rollback segment r01 offline;
alter rollback segment r02 offline;
alter rollback segment r03 offline;
alter rollback segment r04 offline;
connect mims_3015/USER_PASSWORD
CREATE OR REPLACE PROCEDURE delete_sql (myTable in VARCHAR2, mySql in VARCHAR2, commit_size in number) is
i           INTEGER;
sel_id      INTEGER;
del_id      INTEGER;
exec_sel    INTEGER;
exec_del    INTEGER;
del_rowid   ROWID;
start_date  DATE;
end_date    DATE;
s_date      VARCHAR2(1000);
e_date      VARCHAR2(1000);
tt          FLOAT;
lrc         integer;
BEGIN
--dbms_output.put_line('SQL is ' || mySql);
i := 0;
start_date:= SYSDATE;
s_date:=TO_CHAR(start_date,'DD/MM/YY HH24:MI:SS');
--dbms_output.put_line('Deleting ' || myTable);
sel_id := DBMS_SQL.OPEN_CURSOR;
DBMS_SQL.PARSE(sel_id,mySql,dbms_sql.v7);
DBMS_SQL.DEFINE_COLUMN_ROWID(sel_id,1,del_rowid);
exec_sel := DBMS_SQL.EXECUTE(sel_id);
del_id := DBMS_SQL.OPEN_CURSOR;
DBMS_SQL.PARSE(del_id,'delete from ' || myTable || ' where rowid = :del_rowid',dbms_sql.v7);
LOOP
IF DBMS_SQL.FETCH_ROWS(sel_id) >0 THEN
DBMS_SQL.COLUMN_VALUE(sel_id,1,del_rowid);
lrc := dbms_sql.last_row_count;
DBMS_SQL.BIND_VARIABLE(del_id,'del_rowid',del_rowid);
exec_del := DBMS_SQL.EXECUTE(del_id);
-- you need to get the last_row_count earlier as it changes.
if mod(lrc,commit_size) = 0 then
i := i + 1;
--dbms_output.put_line(myTable || ' Commiting Delete no ' || i || ', Rowcount : ' || lrc);
COMMIT;
end if;
ELSE 
exit;
END IF;
END LOOP;
i := i + 1;
--dbms_output.put_line(myTable || ' Final Commiting Delete no ' || i || ', Rowcount : ' || dbms_sql.last_row_count);
COMMIT;
DBMS_SQL.CLOSE_CURSOR(sel_id);
DBMS_SQL.CLOSE_CURSOR(del_id);
end_date := SYSDATE;
e_date := TO_CHAR(end_date,'DD/MM/YY HH24:MI:SS');
tt:= trunc((end_date - start_date) * 24 * 60 * 60,2);
dbms_output.put_line('Deleted ' || myTable || ' Time taken is ' || tt || 's from ' || s_date || ' to ' || e_date || ' in ' || i || ' deletes and Rows = ' || dbms_sql.last_row_count);
END;
/
CREATE OR REPLACE PROCEDURE delete_test (myTable in VARCHAR2, mySql in VARCHAR2, commit_size in number) is
i integer;
start_date DATE;
end_date DATE;
s_date VARCHAR2(1000);
e_date VARCHAR2(1000);
tt FLOAT;
BEGIN
start_date:= SYSDATE;
s_date:=TO_CHAR(start_date,'DD/MM/YY HH24:MI:SS');
i := 0;
i := i + 1;
dbms_output.put_line(i || ' SQL is ' || mySql);
end_date := SYSDATE;
e_date := TO_CHAR(end_date,'DD/MM/YY HH24:MI:SS');
tt:= round((end_date - start_date) * 24 * 60 * 60,2);
dbms_output.put_line(i || ' Time taken is ' || tt || 's from ' || s_date || ' to ' || e_date);
END;
/
show errors procedure delete_sql
show errors procedure delete_test
SET SERVEROUTPUT ON FORMAT WRAP SIZE 200000; 
exec delete_sql('MSF710', 'select rowid from msf710 s where  (s.equip_no, s.eq_tran_date, s.comp_data, s.rec_710_type, s.seq_710_no) not in  (select c.equip_no, c.eq_tran_date, c.comp_data, c.rec_710_type, c.seq_710_no  from  msf710_sched_comm c)', 500);
spool off;

Oh, et un dernier conseil. Ça va être lent et en fonction de la table peut prendre un certain temps d'arrêt. Les tests, le calendrier et le réglage sont votre meilleur ami ici.

OriginalL'auteur Mark Nold

0

Toutes les réponses ici sont très bien, juste une chose à ajouter: si vous souhaitez supprimer tous des enregistrements dans une table, et sont sûr vous n'aurez pas besoin de la restauration, alors vous voulez utiliser la truncate table de commande.

(Dans votre cas, vous ne voulait supprimer un sous-ensemble, mais pour quelqu'un qui rôde avec un problème similaire, j'ai pensé que je pourrais ajouter)

OriginalL'auteur Evan

-1

Le moyen le plus facile pour moi, c'est:-

DECLARE
L_exit_flag VARCHAR2(2):='N';
L_row_count NUMBER:= 0;
BEGIN
:exit_code        :=0;
LOOP
DELETE table_name
WHERE condition(s) AND ROWNUM <= 200000;
L_row_count := L_row_count + SQL%ROWCOUNT;
IF SQL%ROWCOUNT = 0 THEN
COMMIT;
:exit_code :=0;
L_exit_flag := 'Y';
END IF;
COMMIT;
IF L_exit_flag = 'Y'
THEN
DBMS_OUTPUT.PUT_LINE ('Finally Number of Records Deleted : '||L_row_count);
EXIT;
END IF;
END LOOP;
--DBMS_OUTPUT.PUT_LINE ('Finally Number of Records Deleted : '||L_row_count);
EXCEPTION
WHEN OTHERS THEN
ROLLBACK;
DBMS_OUTPUT.PUT_LINE ('Error Code: '||SQLCODE);
DBMS_OUTPUT.PUT_LINE ('Error Message: '||SUBSTR (SQLERRM, 1, 240));
:exit_code := 255;
END;

OriginalL'auteur sandeep

Vous devez vous connecter pour publier un commentaire.