Trouver et supprimer les caractères non ascii à partir d'un Oracle Varchar2

Nous sommes actuellement à la migration d'un de nos bases de données oracle en UTF8 et nous avons trouvé quelques enregistrements qui sont près de 4000 octets varchar limite.
Lorsque nous essayons de migrer ces dossier, ils échouent car ils contiennent des caractères qui deviennent multi-octets UF8 caractères.
Ce que je veux faire au sein de PL/SQL est de repérer ces personnages pour voir ce qu'ils sont, et ensuite, soit de les modifier ou de les supprimer.

Je voudrais faire :

SELECT REGEXP_REPLACE(COLUMN,'[^[:ascii:]],'')

mais l'Oracle ne pas mettre en œuvre les [:ascii:] classe de personnage.

Est-il un moyen simple de faire ce que je veux faire?

Vous auriez probablement souhaitez remplacer ç par c etcetera. Jeter l'ensemble du personnage est loin de pire que de jeter le signe diacritique.
Le 1er we besoin de savoir ce que les personnages sont avant de décider quoi faire avec eux.

InformationsquelleAutor Paul Gilfedder | 2010-02-10

7

Dans un seul octet ASCII compatible encoding (par exemple, le Latin-1), les caractères ASCII sont simplement des octets dans la plage de 0 à 127. De sorte que vous pouvez utiliser quelque chose comme [\x80-\xFF] pour détecter les caractères non-ASCII.
- J'ai essayé en utilisant les codes hex comme le suggère cependant:- regexp_replace(colonne,'[\x00-\xFF]',") ne Retire rien par les lettres majuscules -- dois-je échapper à quelque chose ou est-il autre chose que je dois faire?
- Je rencontre des problèmes à l'aide de votre solution. Cette réponse a été accepté donc je crois qu'il n'est pas carrément mauvais, mais 1.) oracle ne prend pas en charge la syntaxe regex pour spécifier les points de code de caractères/de par leur représentation hexadécimale (ie.'\x80'); au lieu de cela, vous devez spécifier les personnages eux-mêmes ( cependant, l'expression régulière pattern est une expression de chaîne de sorte que vous pouvez utiliser quelque chose comme '['||chr(128)||'-'||chr(255)||']'), 2.) essaie de remplacer tous les caractères dans '['||chr(32)||'-'||chr(127)||']' résultats dans un ora-12728 erreur (plage non valide dans la regex). ma db charset est al32utf8. des idées?
- Je dois ajouter que, 1.) la base de données est oracle 11.2.0.3.0, 2.) les plages de 32-122, 32 à 255 ne sont pas la cause de l'erreur mais 3.) appliquée à une chaîne composée de majuscules et les lettres de l'alphabet et les chiffres montrent comportement inverse de ce que vous attendez (ie. REGEXP_REPLACE ( 'abc', '['||chr(32)||'-'||chr(128)||']' , '_' ) produit abc, tandis que REGEXP_REPLACE ( 'abc', '[^'||chr(32)||'-'||chr(128)||']' , '_' ) retourne ___ ).
InformationsquelleAutor Max Shawabkeh
22

Si vous utilisez le ASCIISTR de la fonction de convertir le format Unicode pour les littéraux de la forme \nnnn, vous pouvez ensuite utiliser REGEXP_REPLACE de bande de ces littéraux, comme si...
```
UPDATE table SET field = REGEXP_REPLACE(ASCIISTR(field), '\\[[:xdigit:]]{4}', '')
```
...où les acteurs de terrain et de la table sont à votre domaine et les noms de table, respectivement.
- Si la longueur de la chaîne est de près de 4000 puis ASCIISTR() permettra de prolonger la chaîne au-delà de cette limite et la chaîne sera tronqué à 4000 caractères (perte de l'excès de caractères à partir de la fin). SQLFIDDLE
- Ce ramasse le caractère barre oblique inverse qui n'est pas souhaitable car c'est l'ascii
- Pour contourner cela, where replace(asciistr(field),asciistr('\'),'\') <> field
InformationsquelleAutor Robb Smith
21

Je pense que cela fera l'affaire:
```
SELECT REGEXP_REPLACE(COLUMN, '[^[:print:]]', '')
```
- C'est propre et fonctionne bien. Tout comme un abdenda vous pouvez également utiliser REGEXP_REPLACE(Colonne,'[^ -~]',") plutôt que de tous ceux Chr() les fonctions et les concaténations de chaîne mentionnés ci-dessus.
- est excellent, car Oracle ne prend pas en charge '[\x80-\xFF]'. Devrait être dans une réponse.
- Fonctionne pour moi merci. Qu'est -~ signifie réellement? Cette norme regex ou quelque chose d'unique à Oracle?
- Si vous voulez de nouvelles lignes, utilisez regexp_replace(column, '[^ -~|[:space:]]', '')
- Il spécifie un caractère ascii gamme, c'est à dire de l'Espace (caractère 32) - (à) tilda "~" (le personnage 126) asciitable.com
InformationsquelleAutor Yuri Tkachenko
9

Je ne le recommande pas pour la production de code, mais il a un sens et semble fonctionner:
```
SELECT REGEXP_REPLACE(COLUMN,'[^' || CHR(1) || '-' || CHR(127) || '],'')
```
- Notez que vous devriez normalement commencer à 32 au lieu de 1, puisque c'est la première imprimables ascii du caractère. Le reste sont des caractères de contrôle, ce qui serait bizarre à l'intérieur des colonnes de texte (encore plus étrange que >127 je dirais). Mais oui, techniquement, la réponse est correcte, cela permettrait de détecter des caractères non-ascii, compte tenu de l'original 7-bit ascii standard.
InformationsquelleAutor Francisco Hayoz
4

Le select peut ressembler à l'exemple suivant:
```
select nvalue from table
where length(asciistr(nvalue))!=length(nvalue)  
order by nvalue;
```
- Bonne idée, mais avec ce que vous avez réellement l'identification des champs de données dont la taille en octets n'est pas le même que le nombre de symboles représentés par eux.
- Aussi renvoie à tort le "\" clé en tant que non caractères ascii.
InformationsquelleAutor Jeff Dwight
3

Il y a probablement une façon plus directe, à l'aide d'expressions régulières. Avec un peu de chance, quelqu'un d'autre va le fournir. Mais voici ce que je ferais sans avoir besoin d'aller à l'manuels.

Créer un PLSQL fonction de recevoir votre chaîne d'entrée et de retour d'un varchar2.

Dans le PLSQL la fonction, faire un asciistr() de votre entrée. Le PLSQL est parce que peut retourner une chaîne de plus de 4000 et vous avez 32K disponibles pour varchar2 en PLSQL.

Cette fonction convertit les caractères non-ASCII \xxxx notation. Ainsi, vous pouvez utiliser des expressions régulières pour rechercher et supprimer ceux-ci. Puis retourner le résultat.
- Cela a fonctionné un régal merci.
InformationsquelleAutor Jim Hudson

Suivantes fonctionne aussi:

select dump(a,1016), a from (
SELECT REGEXP_REPLACE (
          CONVERT (
             '3735844533120%$03  ',
             'US7ASCII',
             'WE8ISO8859P1'),
          '[^!@/\.,;:<>#$%&()_=[:alnum:][:blank:]]') a
  FROM DUAL);

InformationsquelleAutor Sajid

2

J'ai eu un problème similaire et blogué à ce sujet ici.
J'ai commencé avec l'expression régulière pour alpha numériques, puis ajouté dans la base quelques caractères de ponctuation que j'ai aimé:
```
select dump(a,1016), a, b
from
 (select regexp_replace(COLUMN,'[[:alnum:]/''%()> -.:=;[]','') a,
         COLUMN b
  from TABLE)
where a is not null
order by a;
```
J'ai utilisé dump avec le 1016 variante de donner les caractères hexadécimaux je voulais remplacer qui je pourrais alors l'utilisateur dans un utl_raw.cast_to_varchar2.

InformationsquelleAutor Gary Myers

J'ai trouvé la réponse ici:

http://www.squaredba.com/remove-non-ascii-characters-from-a-column-255.html

CREATE OR REPLACE FUNCTION O1DW.RECTIFY_NON_ASCII(INPUT_STR IN VARCHAR2)
RETURN VARCHAR2
IS
str VARCHAR2(2000);
act number :=0;
cnt number :=0;
askey number :=0;
OUTPUT_STR VARCHAR2(2000);
begin
str:=’^'||TO_CHAR(INPUT_STR)||’^';
cnt:=length(str);
for i in 1 .. cnt loop
askey :=0;
select ascii(substr(str,i,1)) into askey
from dual;
if askey < 32 or askey >=127 then
str :=’^'||REPLACE(str, CHR(askey),”);
end if;
end loop;
OUTPUT_STR := trim(ltrim(rtrim(trim(str),’^'),’^'));
RETURN (OUTPUT_STR);
end;
/

Puis exécutez la commande suivante pour mettre à jour vos données

update o1dw.rate_ipselect_p_20110505
set NCANI = RECTIFY_NON_ASCII(NCANI);

InformationsquelleAutor Matt McGurie

Essayez ce qui suit:

-- To detect
select 1 from dual
where regexp_like(trim('xx test text æ¸¬è© ¦ “xmx” number²'),'['||chr(128)||'-'||chr(255)||']','in')

-- To strip out
select regexp_replace(trim('xx test text æ¸¬è© ¦ “xmxmx” number²'),'['||chr(128)||'-'||chr(255)||']','',1,0,'in')
from dual

InformationsquelleAutor Kok-Yan Lo

0

Réponse donnée par Francisco Hayoz est le meilleur. N'utilisez pas de pl/sql fonctions si sql peut le faire pour vous.

Voici le test simple dans Oracle 11.2.03
```
select s
     , regexp_replace(s,'[^'||chr(1)||'-'||chr(127)||']','') "rep ^1-127"
     , dump(regexp_replace(s,'['||chr(127)||'-'||chr(225)||']','')) "rep 127-255"
from (
select listagg(c, '') within group (order by c) s
  from (select 127+level l,chr(127+level) c from dual connect by level < 129))
```
Et "rep 127-255" est

Typ=1 Len=30: 226,227,228,229,230,231,232,233,234,235,236,237,238,239,240,241,242,243,244,245,246,247,248,249,250,251,252,253,254,255

je.e pour certaines raisons, cette version d'Oracle ne pas remplacer char(226) et au-dessus.
L'utilisation de '['||chr(127)||'-'||chr(225)||']' donne le résultat souhaité.
Si vous avez besoin de remplacer d'autres personnages, de les ajouter à l'expression régulière ci-dessus ou utilisez remplacer imbriquée|regexp_replace si le remplacement est alors différent " (une chaîne vide).

InformationsquelleAutor Alex S
0

Merci, cela a fonctionné pour mes fins. BTW il manque un guillemet simple dans l'exemple ci-dessus.

REGEXP_REPLACE (COLONNE,'[^' || CHR (32) || '-' || CHR (127) || ']', ' '))

Je l'ai utilisé dans word-wrap fonction. Parfois, il y a un intégré à NewLine/NL /CHR(10) /0A dans le texte entrants que c'était gâcher les choses.

InformationsquelleAutor allen
0

Veuillez noter que lorsque vous utilisez
```
regexp_like(column, '[A-Z]')
```
Oracle regexp, le moteur de match de certains caractères Latin-1 gamme: cela s'applique à tous les caractères qui ressemblent à des caractères ASCII comme Ä->A, Ö->O, Ü->U, etc., de sorte que [A-Z] n'est pas ce que vous connaissez d'autres environnements, comme, par exemple, Perl.

Au lieu de jongler avec les expressions régulières, essayez de changer pour le NVARCHAR2 type de données avant le jeu de caractères de mise à niveau.

Une autre approche: au lieu de couper une partie des champs " contenu vous pouvez essayer la fonction SOUNDEX, à condition que votre base de données contient des caractères Européens (c'est à dire en Latin-1) caractères seulement. Ou vous venez d'écrire une fonction qui convertit les caractères Latin-1 gamme de semblable à la recherche des caractères ASCII, comme
- å => un
- ä => un
- ö => o
bien sûr uniquement pour les blocs de texte dépassant 4000 octets lorsqu'il est transformé en UTF-8.

InformationsquelleAutor elwood
0

Vous pouvez essayer quelque chose comme suite à la recherche de la colonne contenant des caractères non-ascii :
```
select * from your_table where your_col <> asciistr(your_col);
```
InformationsquelleAutor Shardul Dhanorkar
-2

Ce faire, il faudra travailler.
```
trim(replace(ntwk_slctor_key_txt, chr(0), ''))
```
- Bienvenue à Débordement de Pile! Cette réponse se place dans le bas de la qualité de l'examen de la file d'attente, sans doute parce que vous n'avez pas d'expliquer le code. Si vous ne l'expliquer (dans votre réponse), vous êtes beaucoup plus susceptibles d'obtenir plus upvotes et l'interlocuteur est plus susceptible d'apprendre quelque chose!
InformationsquelleAutor Mohan

-3

Je suis un peu en retard pour répondre à cette question, mais a eu le même problème récemment (les gens couper et coller toutes sortes de choses dans une chaîne, et l'on ne sait pas toujours ce qu'il est).
Ce qui suit est un simple caractère de la liste blanche de l'approche:

SELECT est.clients_ref
  ,TRANSLATE (
              est.clients_ref
             ,   'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ01234567890#$%^&*()_+-={}|[]:";<>?,./'
              || REPLACE (
                          TRANSLATE (
                                     est.clients_ref
                                    ,'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ01234567890#$%^&*()_+-={}|[]:";<>?,./'
                                    ,'~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~'
                                    )
                         ,'~'
                         )
             ,'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ01234567890#$%^&*()_+-={}|[]:";<>?,./'
             )
      clean_ref

DE edms_staging_table hne

InformationsquelleAutor user5531447

Vous devez vous connecter pour publier un commentaire.