Trier un fichier texte par la longueur de la ligne, espaces compris

J'ai un fichier CSV qui ressemble à ce

AS2345,ASDF1232, M. Plaine Exemple, 110 Binaire ave.,Atlantis,RI,12345,(999)123-5555,à 1,56 
AS2345,ASDF1232, Mme la Plaine Exemple, 1121110 Ternaire saint. 110 Binaire ave..,Atlantis,RI,12345,(999)123-5555,à 1,56 
AS2345,ASDF1232, M. Plaine Exemple, 110 Binaire ave.,Liberty City,RI,12345,(999)123-5555,à 1,56 
AS2345,ASDF1232, M. Plaine Exemple, 110 Ternaire ave.,Certains de la Ville,RI,12345,(999)123-5555,à 1,56

J'ai besoin de faire le tri par la longueur de la ligne, espaces compris. La commande suivante n'est pas
inclure des espaces, est-il un moyen de le modifier afin qu'il fonctionne pour moi?

cat $@ | awk '{ print length, $0 }' | sort -n | awk '{$1=""; print $0}'

J'aimerais vraiment vivre en Binaire Avenue ou Ternaire de la Rue, ces gens pourrait certainement être d'accord avec des choses comme "8192 est un chiffre rond"

InformationsquelleAutor gnarbarian | 2011-05-06

200

Réponse
```
cat testfile | awk '{ print length, $0 }' | sort -n -s | cut -d" " -f2-
```
Ou, pour faire votre original (peut-être involontaire) sous-tri de l'égalité de longueur des lignes:
```
cat testfile | awk '{ print length, $0 }' | sort -n | cut -d" " -f2-
```
Dans les deux cas, nous avons résolu votre problème en déplaçant loin de awk pour votre montage final.

Lignes de correspondance de longueur - que faire en cas d'égalité:

La question ne précise pas si ou non de poursuivre le tri a été voulu pour les lignes de correspondance de longueur. J'ai supposé que c'est non désirés et a suggéré l'utilisation de -s (--stable) pour prévenir de telles lignes à trier les uns contre les autres, et de les garder dans l'ordre dans lequel ils se produisent dans l'entrée.

(Ceux qui veulent plus de contrôle sur le tri de ces liens pourrait ressembler au tri --key option.)

Pourquoi la question des tentatives de solution échoue (awk ligne-reconstruction):

Il est intéressant de noter la différence entre:
```
echo "hello   awk   world" | awk '{print}'
echo "hello   awk   world" | awk '{$1="hello"; print}'
```
Qu'ils cèdent respectivement
```
hello   awk   world
hello awk world
```
La la section pertinente de l' (gawk s) du manuel ne mentionne en passant que awk va reconstruire l'ensemble de 0 $(basé sur le séparateur, etc) lorsque vous modifiez un champ. Je suppose que ce n'est pas fou de comportement. Il a ceci:

"Enfin, il y a des moments où il est commode de force awk pour reconstruire la totalité de l'enregistrement, à l'aide de la valeur actuelle des champs et de l'OFS. Pour ce faire, utilisez l'apparence anodine d'affectation:"
```
 $1 = $1   # force record to be reconstituted
 print $0  # or whatever else with $0
```
"Cette les forces de awk pour reconstruire le dossier".

Test d'entrée, y compris certaines lignes d'égale longueur:
```
aa A line   with     MORE    spaces
bb The very longest line in the file
ccb
9   dd equal len.  Orig pos = 1
500 dd equal len.  Orig pos = 2
ccz
cca
ee A line with  some       spaces
1   dd equal len.  Orig pos = 3
ff
5   dd equal len.  Orig pos = 4
g
```
- +1: Excellent pour expliquer pourquoi les espaces sont perdus dans le " post-processus avec awk alternative.
- heemayl, oui c'est bien, merci. J'ai essayé de faire correspondre la forme de l'OP tentative de solution, si possible, pour lui permettre de se concentrer uniquement sur des différences importantes entre le sien et le mien.
- Il est intéressant de souligner que cat $@ est cassé, trop. Vous absolument certainement envie de le citer, comme cat "$@"
InformationsquelleAutor neillb
22

La AWK solution de neillb est l'endroit idéal si vous voulez vraiment utiliser awk et il explique pourquoi il est fastidieux de là, mais si ce que vous voulez est de faire le travail rapidement et ne se soucient pas ce que vous faites cela, une solution consiste à utiliser Perl sort() fonction avec une coutume caparison routine pour itérer sur les lignes d'entrée. Voici en une seule ligne:
```
perl -e 'print sort { length($a) <=> length($b) } <>'
```
Vous pouvez mettre ceci dans votre pipeline partout où vous en avez besoin, à la réception de STDIN (à partir de cat ou à une coque de redirection) ou tout simplement donner le nom du fichier à perl comme un autre argument et le laisser ouvert le fichier.

Dans mon cas, j'avais besoin de la plus longue premières lignes, j'ai donc échangé $a et $b dans la comparaison.
- C'est la meilleure solution parce que awk causes inattendues de tri lorsque le fichier d'entrée contient numérique et alfanumeric lignes Ici la oneline commande: $ cat testfile | perl -e 'print tri { longueur($a) <=> longueur($b) } <>"
InformationsquelleAutor Caleb

Essayer cette commande au lieu de:

awk '{print length, $0}' your-file | sort -n | cut -d " " -f2-

InformationsquelleAutor anubhava

7

Les résultats d'un Benchmark

Ci-dessous sont les résultats d'une référence dans les solutions de ather réponses à cette question.

Méthode d'essai
- 10 séquentielle s'exécute sur une machine rapide, en moyenne
- Perl 5.24
- awk 3.1.5 (gawk 4.1.0 les temps étaient ~2% de plus)
- Le fichier d'entrée est un 550MB, 6 millions de ligne de la monstruosité (British National Corpus txt)
Résultats
1. Caleb est perl solution a pris 11.2 secondes
2. mon perl solution a pris 11.6 secondes
3. neillb de awk solution #1 a pris 20 secondes
4. neillb de awk solution #2 a 23 secondes
5. anubhava de awk solution pris 24 secondes
6. Jonathan awk solution a pris 25 secondes
7. Fretz est bash solution prend 400 fois plus long que le awk solutions (à l'aide d'un tronc de cas de test de 100000 lignes). Il fonctionne très bien, faut juste jamais.
Supplémentaire perl option

Aussi, j'ai ajouté un autre Perl solution:
```
perl -ne 'push @a, $_; END{ print sort { length $a <=> length $b } @a }' file
```
- Super élégant et vous mettre dans le travail à temps. Merci!
InformationsquelleAutor Chris Koknat

Pur Bash:

declare -a sorted

while read line; do
  if [ -z "${sorted[${#line}]}" ] ; then          # does line length already exist?
    sorted[${#line}]="$line"                      # element for new length
  else
    sorted[${#line}]="${sorted[${#line}]}\n$line" # append to lines with equal length
  fi
done < data.csv

for key in ${!sorted[*]}; do                      # iterate over existing indices
  echo -e "${sorted[$key]}"                       # echo lines with equal length
done

InformationsquelleAutor Fritz G. Mehner

3

La length() fonction ne contenir d'espaces. Je voudrais simplement faire des ajustements mineurs à votre pipeline (notamment en évitant les UUOC).
```
awk '{ printf "%d:%s\n", length($0), $0;}' "$@" | sort -n | sed 's/^[0-9]*://'
```
La sed commande directement supprime les chiffres et les deux points ajoutés par le awk de commande. Sinon, en gardant votre mise en forme de awk:
```
awk '{ print length($0), $0;}' "$@" | sort -n | sed 's/^[0-9]* //'
```
InformationsquelleAutor Jonathan Leffler
2

J'ai trouvé ces solutions ne fonctionne pas si votre fichier contient des lignes qui commencent par un nombre, car ils seront triés numériquement avec tous les compté les lignes. La solution est de donner sort la -g (général-numérique-tri) drapeau au lieu de -n (numérique-tri):
```
awk '{ print length, $0 }' lines.txt | sort -g | cut -d" " -f2-
```
- Salut, Markus. Je ne l'observe pas de ligne de contenu (numérique ou pas) - par opposition à la longueur de la ligne - comme ayant une incidence sur le tri, sauf dans le cas de lignes avec la correspondance des longueurs. Est-ce que vous vouliez dire? Dans de tels cas, je n'ai pas trouvé de commutation de tri des méthodes de -n à votre suggestion de -g à obtenir une amélioration, donc je m'attends pas. J'ai désormais l'objet, dans ma réponse, comment interdire la sous-tri de l'égalité de longueur des lignes (à l'aide de --stable). Si oui ou non c'était ce que tu voulais dire, merci de le signaler à mon attention! J'ai aussi ajouté une entrée pour le test.
- Non, laissez-moi vous expliquer en la décomposant. Juste le awk partie pour générer une liste de lignes commençant avec la longueur de la ligne et un espace. Tuyauterie à sort -n fonctionnera comme prévu. Mais si l'un de ces lignes a déjà un certain nombre au début, ces lignes vont commencer avec la longueur + espace + le numéro. sort -n ne tient pas compte que l'espace et le traiter comme un numéro de concaténées partir d'une longueur de + numéro. À l'aide de la -g drapeau de la volonté au lieu de s'arrêter à la première place, ce qui donne un tri correct. Essayez-le vous-même par la création d'un fichier avec un certain nombre de préfixe de lignes et d'exécuter la commande, étape par étape.
- J'ai aussi trouvé que sort -n abstraction de l'espace et produit un tri incorrect. sort -g sorties le bon ordre.
- Je ne peux pas reproduire le problème décrit avec -n dans sort (GNU coreutils) 8.21. Le info documentation décrit -g moins efficace, et potentiellement moins précis (il convertit les numéros de flotte), alors, probablement, ne l'utilisez pas si vous n'en avez pas besoin.
- n.b. documentation pour -n: "Trier numériquement. Le numéro commence chaque ligne et consiste en option blancs, en option, un signe" -", et zéro ou plusieurs chiffres, éventuellement séparés par des séparateurs de milliers, suivie éventuellement par une virgule point de caractère et de zéro ou plusieurs chiffres. Un vide nombre est considéré comme ‘0’. Le " LC_NUMERIC locale spécifie le séparateur décimal point de caractère et le séparateur des milliers. Par défaut, un vide est un espace ou une tabulation, mais le "LC_CTYPE locale peut changer cela".
- Essayez peut-être de LC_ALL=C sort -n
InformationsquelleAutor Markus Amalthea Magnuson

Avec POSIX Awk:

{
  c = length
  m[c] = m[c] ? m[c] RS $0 : $0
} END {
  for (c in m) print m[c]
}

Exemple

InformationsquelleAutor Steven Penny

2

1) pur awk solution. Supposons que la longueur de la ligne ne peut pas être plus > 1024
puis

chat de nom de fichier | awk 'BEGIN {min = 1024; s = "";} {l = length($0); si (l < min) {min = l; s = $0;}} END {print s}'

2) une ligne de bash solution en supposant que toutes les lignes ont juste 1 mot, mais peut retravaillé pour tous les cas où toutes les lignes ont le même nombre de mots:

LIGNES=$(cat nom_fichier); pour k dans $LIGNE; do printf "$k "; echo $k | wc-L; done | sort-k2 | head-n 1 | cut-d "" -f1

InformationsquelleAutor Michael Yuniverg
1

Ici est un multi-octets compatible avec la méthode des lignes de tri par longueur. Il faut pour cela:
1. wc -m est disponible pour vous (macOS a).
2. Vos paramètres régionaux en cours prend en charge des caractères multi-octets, par exemple, par la mise en LC_ALL=UTF-8. Vous pouvez définir ce soit dans votre .bash_profile, ou simplement en ajoutant avant la commande suivante.
3. testfile a un codage de caractères correspondant à vos paramètres régionaux (par exemple, UTF-8).
Voici l'intégralité de la commande:
```
cat testfile | awk '{l=$0; gsub(/7/, "7\"7\"7", l); cmd=sprintf("echo 7%s7 | wc -m", l); cmd | getline c; close(cmd); sub(/*/, "", c); { print c, $0 }}' | sort -ns | cut -d" " -f2-
```
Expliquant en partie par partie:
- l=$0; gsub(/\047/, "\047\"\047\"\047", l); ← fait d'une copie de chaque ligne dans awk variable l et double-échappe à tous les ' de sorte que la ligne peut en toute sécurité être repris comme un shell de commande (\047 est un guillemet simple dans la notation octale).
- cmd=sprintf("echo \047%s\047 | wc -m", l); ← c'est la commande que nous allons exécuter, qui fait écho à l'échappé de la ligne de wc -m.
- cmd | getline c; ← exécute la commande et copies le nombre de caractères de la valeur qui est retournée dans la variable awk c.
- close(cmd); ← fermer le tuyau pour la commande shell pour éviter de heurter un système de limite sur le nombre de fichiers ouverts dans un processus.
- sub(/*/, "", c); ← garnitures espace blanc au nombre de caractères de la valeur retournée par wc.
- { print c, $0 } ← imprime la ligne du nombre de caractères de la valeur, de l'espace, et la ligne d'origine.
- | sort -ns ← trie les lignes (par préfixé nombre de caractères valeurs) numériquement (-n), et le maintien de la stabilité de l'ordre de tri (-s).
- | cut -d" " -f2- ← supprime la préfixé nombre de caractères valeurs.
C'est lent (seulement 160 lignes par seconde sur un rapide Macbook Pro), car il doit exécuter une sous-commande pour chaque ligne.

Sinon, il suffit de faire cela uniquement avec gawk (de la version 3.1.5, gawk est multi-octets au courant), ce qui serait nettement plus rapide. Il a beaucoup de difficulté à le faire tous les fuir et double-échappement en toute sécurité passer les lignes à l'aide d'une commande shell à partir de awk, mais c'est la seule méthode que j'ai pu trouver qui ne nécessite pas l'installation de logiciels supplémentaires (gawk n'est pas disponible par défaut sur macOS).

InformationsquelleAutor Quinn Comendant

Vous devez vous connecter pour publier un commentaire.

Réponse

Lignes de correspondance de longueur - que faire en cas d'égalité:

Pourquoi la question des tentatives de solution échoue (awk ligne-reconstruction):

Test d'entrée, y compris certaines lignes d'égale longueur:

Les résultats d'un Benchmark

Méthode d'essai

Résultats

Supplémentaire perl option

Supplémentaire `perl` option