Skip/supprimer des caractères non-ascii avec sed

Puce,Dirkland,DrobæSphere Inc,[email protected],états-unis

J'ai essayé d'utiliser sed pour modifier les adresses e-mail dans un .csv, mais la ligne au-dessus de garde de déclenchement-moi, en utilisant des commandes telles que:

sed -i 's/[\d128-\d255]//' FILENAME

à partir de cette question stackoverflow

ne semble pas fonctionner comme je l'obtenir "invalid classement caractère' erreur.

Idéalement, je ne veux pas changer que le combiné AE caractère à tous, j'ai plutôt sed simplement sauter à droite sur elle comme je ne suis pas en train de manipuler du texte, mais plutôt les adresses e-mail. Tant que l'AE est là, si elle provoque mon sed de substitution à l'échec après une ligne, supprimer le caractère et les processus de l'ensemble du dossier de l'amende.

Des idées?

OriginalL'auteur xref | 2011-12-20

sed

4

Cela pourrait fonctionner pour vous (GNU sed):
```
echo "Chip,Dirkland,DrobæSphere Inc,[email protected],usa" |
sed 's/\o346/a+e/g'
Chip,Dirkland,Droba+eSphere Inc,[email protected],usa
```
Puis faire ce que vous avez à faire et après de revenir faire:
```
echo "Chip,Dirkland,Droba+eSphere Inc,[email protected],usa" | 
sed 's/a+e/\o346/g'
Chip,Dirkland,DrobæSphere Inc,[email protected],usa
```
Si vous avez délicate des caractères dans les chaînes et que vous voulez comprendre comment sed les voit utiliser le l0 de commande (voir ici). Également très utile pour le débogage difficile expressions régulières.
```
echo "Chip,Dirkland,DrobæSphere Inc,[email protected],usa" | 
sed -n 'l0'
Chip,Dirkland,Drob6Sphere Inc,[email protected],usa$
```
+1 pour le l0. Il y a un autre sedsed.py script trop, ici. Utile pour inspecter pattern et hold espaces. Pourrait ne pas aider dans ce cas, mais un utile outil de débogage n'en est pas moins. 🙂
que sed -n 'l0' commande est intéressant, ce qu'il imprime de l'entreprise est: Drob\357\277\275Sphere Inc
et je ne peux toujours pas les exemples ci-dessus pour travailler avec elle, peut-être le personnage (ce qui montre qu'une AE dans Windows LibreOffice mais nulle part ailleurs) est en fait un caractère spécial en disant qu'il ne peut pas être représentée en unicode? fileformat.info/info/unicode/char/fffd/index.htm
Je n'ai jamais eu les réponses sur cette page afin de fonctionner parfaitement, mais potong la solution m'a procuré la plus proche et la commande offert plus de détails sur ce qui n'allait pas
N'aide pas à supprimer tous les caractères non-ASCII. Permet de supprimer une donnée en exemple.

OriginalL'auteur potong
4
```
sed -i 's/[^[:print:]]//' FILENAME
```
Aussi, cela agit comme dos2unix

Ne fonctionne pas. [:print:] n'est pas de l'ASCII, par exemple ü est imprimable, mais pas de l'ASCII.

OriginalL'auteur jcalfee314

Je suis venu ici pour essayer cette commande sed s/[\x00-\x1F]//g;, ce qui m'a donné le même message d'erreur.

dans ce cas, il suffit simplement de supprimer le \x00 de la collation, produisant s/[\x01-\x1F]//g;

Malheureusement, il semble que tous les caractères ci-dessus et notamment \x7F et quelques autres sont interdits, comme on peut le voir avec ce petit script:

for (( i=0; i<=255; i++ )); do 
    printf "== $i - \x$(echo "ibase=10;obase=16;$i" | bc) =="
    echo '' | sed -E "s/[\d$i-\d$((i+1))]]//g"
done

Noter que le problème est que l'utilisation de ces caractères pour spécifier une plage. Vous pouvez toujours en faire la liste de tous les manuellement ou par le script. E. g. pour en revenir à votre exemple:

sed -i 's/[\d128-\d255]//' FILENAME

deviendrait

c=; for (( i=128; i<255; i++ )); do c="$c\d$i"; done
sed -i 's/['"$c"']//' FILENAME

qui pourrait se traduire:

sed -i 's/[\d128\d129\d130\d131\d132\d133\d134\d135\d136\d137\d138\d139\d140\d141\d142\d143\d144\d145\d146\d147\d148\d149\d150\d151\d152\d153\d154\d155\d156\d157\d158\d159\d160\d161\d162\d163\d164\d165\d166\d167\d168\d169\d170\d171\d172\d173\d174\d175\d176\d177\d178\d179\d180\d181\d182\d183\d184\d185\d186\d187\d188\d189\d190\d191\d192\d193\d194\d195\d196\d197\d198\d199\d200\d201\d202\d203\d204\d205\d206\d207\d208\d209\d210\d211\d212\d213\d214\d215\d216\d217\d218\d219\d220\d221\d222\d223\d224\d225\d226\d227\d228\d229\d230\d231\d232\d233\d234\d235\d236\d237\d238\d239\d240\d241\d242\d243\d244\d245\d246\d247\d248\d249\d250\d251\d252\d253\d254\d255]//' FILENAME

"Malheureusement, il semble que tous les caractères ci-dessus et notamment \x7F et quelques autres sont interdits". Merci! Qui explique pourquoi je me fais de la Invalid collation character erreur.

OriginalL'auteur mxmlnkn

0

Comment sur l'utilisation de awk pour cela. Nous avons configuré le Séparateur de Champ pour rien. Puis une boucle sur chaque personnage. Utiliser un if loop pour vérifier si elle correspond à nos character class. Si elle ne nous l'imprimer autre chose que nous ignorons.
```
awk -v FS="" '{for(i=1;i<=NF;i++) if($i ~ /[A-Za-z,.@ ]/) printf $i}'
```
Test:
```
[jaypal:~/Temp] echo "Chip,Dirkland,DrobæSphere Inc,[email protected],usa" | 
awk -v FS="" '{for(i=1;i<=NF;i++) if($i ~ /[A-Za-z,.@ ]/) printf $i}'
Chip,Dirkland,DrobSphere Inc,[email protected],usa
```
Mise à jour:
```
awk -v FS="" '{for(i=1;i<=NF;i++) if($i ~ /[A-Za-z,.@ ]/) printf $i; printf "\n"}' < datafile.csv > asciidata.csv
```
J'ai ajouté printf "\n" après la boucle pour garder les lignes distinctes.

Grâce Jaypal, comment cela peut-il être modifié si vous voulais pour traiter les données.csv et de sortie asciidata.csv?
J'ai mis à jour la réponse. Espérons que ça aide!
Si vous ne voulez e-mail extraites à partir de votre fichier d'entrée puis awk pouvez le faire en un clin d'oeil sans aucun complexe regex. Permettez-moi de savoir comment cela fonctionne.

OriginalL'auteur jaypal singh
0

Dans ce cas, il y a un moyen de simplement les ignorer non-ASCII caractères, de ne pas s'embêter avec de l'enlever.
```
LANG=C sed /someemailpattern/
```
Voir https://bugzilla.redhat.com/show_bug.cgi?id=440419 et Va sed (et d'autres) corruption de la non-ASCII fichiers?.

OriginalL'auteur Vadzim

Vous devez vous connecter pour publier un commentaire.