La suppression de Windows retours à la ligne sur Linux (sed vs awk)

Ont certains des fichiers délimités par des avec mal placé caractères de saut de ligne dans le milieu de champs (pas de ligne se termine), apparaissant comme des ^M dans Vim. Ils proviennent de freebcp (sur Centos 6) exportations de base de données MSSQL. Dumping les données en hexadécimal montre \r\n motifs:

$ xxd test.txt | grep 0d0a
0000190: 3932 3139 322d 3239 3836 0d0a 0d0a 7c43

Je peux les enlever avec awk, mais je suis incapable de faire de même avec le sed.

Cela fonctionne dans awk, enlever les sauts de ligne complètement:

awk 'gsub(/\r/,""){printf $0;next}{print}'

Mais cela sed ne pas, en laissant la ligne de flux en place:

sed -i 's/\r//g'

où cela semble avoir aucun effet:

sed -i 's/\r\n//g'

À l'aide de ^M dans l'expression sed (ctrl+v, ctrl+m) ne semble pas fonctionner.

Pour ce genre de tâches, sed est plus facile de grok, mais je suis en train de travailler sur l'apprentissage plus sur les deux. Suis-je à l'aide de sed mal, ou est-il une limite?

Avez-vous essayé avec le cite: sed -e s/"^M"//g ?
Fonctionne comme prévu pour moi, avec GNU sed 4.2.1...
dont le motif est travail pour vous? J'ai la même version de sed.
sed 's/\r//g', même avec POSIXLY_CORRECT=1. La deuxième, bien sûr, ne fait rien, parce que \n ne fait pas partie du modèle de l'espace.
Ne que sed supprimer le \r\n habitudes, ou de les remplacer par \n? Sur mon système de remplacement se produit, non pas une suppression.

InformationsquelleAutor kermatt | 2012-07-27

20

Je crois que certaines versions de sed ne reconnaîtra pas \r comme un personnage. Toutefois, vous pouvez utiliser un bash fonction pour contourner cette limitation:
```
echo $string | sed $'s/\r//'
```
Ici, vous laissez bash remplacer "\r " avec le caractère de retour chariot à l'intérieur de la $'...' construire avant de les transmettre qu'à sed comme sa commande. (En supposant que vous utilisez bash; d'autres coquilles doivent avoir une même construire.)
- Cela semble être le cas. Mais j'ai un grand texte de groupes de processus, ~100 MO de fichiers. Trouver d'autres exemples de solutions dans bash. À la recherche de celle qui va travailler dans cette situation.
- Cela semble l'être le droit chemin, mais à la fin, awk semble l'être la réponse. Sa syntaxe est plus compliqué, mais les regexes je donner du travail comme prévu (le même que dans Vim).
InformationsquelleAutor chepner
41

Vous pouvez utiliser l'outil de ligne de commande dos2unix
```
dos2unix input
```
Ou utiliser le tr commande:
```
tr -d '\r' <input >output
```
Fait, vous pouvez faire le fichier-format de commutation dans vim:

Méthode Un:
```
:e ++ff=dos
:w ++ff=unix
:e!
```
Méthode B:
```
:e ++ff=dos
:set ff=unix
:w
```
MODIFIER

Si vous souhaitez supprimer le \r\n séquences dans le fichier, essayez ces commandes dans vim:
```
:e ++ff=unix           " <-- make sure open with UNIX format
:%s/\r\n//g            " <-- remove all \r\n
:w                     " <-- save file
```
Votre awk solution fonctionne très bien. Deux autres sed solutions:
```
sed '1h;1!H;$!d;${g;s/\r\n//g}' input
sed ':A;/\r$/{N;bA};s/\r\n//g' input
```
- dos2unix feuilles des sauts de ligne (\n) en place. J'ai besoin de les supprimer complètement. tr enlève le \r, en laissant le même résultat.
- tr -d '[\r\n] " se transforme le fichier en un géant de la ligne. Il apparaît pour supprimer les caractères individuellement.
- Pourquoi dos2unix ne fonctionne pas? Vous pouvez poster votre échantillon d'entrée/sortie de fichier?
- dos2unix apparaît pour remplacer \r\n \n. J'ai besoin de supprimer le \r\n des modèles, comme le fichier a déjà les fins de ligne Unix et Windows paires sont ordures données dans les lignes.
- 2012-07-26|123456||UserName1|0|2004-03-31 00:00:00.000|N||1|0000000002932f3d|San Diego|CA|États-unis d'Amérique|992192-2986^M 3 ^M 4 |CRÉDIT|2004-03-31 00:00:00.000|2004-03-31 00:00:00.000|31|N|N|N||O|||0||||0|N|1|1|Y||||||||1||1|||N|2004-05-31 18:21:42.403|PAR DÉFAUT|||||||||||N||||Y||||||||
- Dans vim, ou même dans la plaine, âgé de vi, vous pouvez également supprimer Ctrl-M aux extrémités des lignes en tapant :%s/^V^M//. Le Ctrl-V provoque le Ctrl-M échappé, de sorte que vous pouvez inclure dans l'expression. Je le fais dans FreeBSD et OSX vi tout le temps.
- Il fonctionne en effet comme prévu dans Vim. Ce travail est régulier, une tâche cron,et autant que je me souvienne, je peux passer la commande ex par le biais de Vim dans un script shell?
InformationsquelleAutor kev
6

Une autre méthode
```
awk 1 RS='\r\n' ORS=
```
- définir le Séparateur d'Enregistrement à \r\n
- de Sortie Séparateur d'Enregistrement à la chaîne vide
- 1 est toujours vrai, et en l'absence d'un bloc action {print} est utilisé
InformationsquelleAutor Steven Penny
4

sed -e 's/\r//g' input_file

Cela fonctionne pour moi. La différence de -e au lieu de -je commande.

Je l'ai mentionné que le voir sur différentes plates-formes se comportent différemment.
Le mien est:sed --version This is not GNU sed version 4.0

InformationsquelleAutor Sergiy Dolnyy

Vous devez vous connecter pour publier un commentaire.

MODIFIER