génération de tableau de fréquences à partir d'un fichier

Donné un fichier d'entrée contenant qu'un seul numéro par ligne, comment pourrais-je obtenir un décompte du nombre de fois qu'un élément est survenu dans ce dossier?

cat input.txt
1
2
1
3
1
0

de sortie désirée (=>[1,3,1,1]):

cat output.txt
0 1
1 3
2 1
3 1

Ce serait formidable, si la solution pourrait également être étendu pour les nombres flottants.

Ce type de sortie est simple et utile, mais ce n'est pas un histogramme. Voir, par exemple, quarknet.fnal.gov/toolkits/ati/histograms.html
Je suis d'accord vous ne demandez pas pour un histogramme. Qui peut toutefois également être accomplie avec bash, qui est ce que je suis venu chercher. Voir cette question et ses réponses: unix.stackexchange.com/questions/177777/...

InformationsquelleAutor Javier | 2011-05-18

78

Vous voulez dire que vous voulez un décompte du nombre de fois qu'un élément apparaît dans le fichier d'entrée? Tout d'abord trier (à l'aide de -n si l'entrée est toujours des nombres, comme dans votre exemple) puis de compter les résultats uniques.
```
sort -n input.txt | uniq -c
```
- Je ne savais pas à propos de la uniq de commande. Je l'ai changé pour cat input.txt | sort -n | uniq -c | awk '{print $2 " " $1}', maintenant, je suis à l'obtention du résultat souhaité.
- Votre utilisation de awk pour obtenir la commande est très bien, mais vous n'avez pas besoin d'utiliser le chat il. Vous devriez en apprendre davantage sur le < opérateur de fichiers d'entrée dans les programmes et même des choses comme la boucle de constructions. Pour l'humour de la valeur, voir l'inutile l'utilisation de cat prix
InformationsquelleAutor Caleb
10

Une autre option:
```
awk '{n[$1]++} END {for (i in n) print i,n[i]}' input.txt | sort -n > output.txt
```
- le " n " de la matrice de simplement conserve un nombre de chaînes qu'il voit dans le fichier d'entrée. Il peut être de type int, float ou toute chaîne de caractères arbitraire. Oui, la " FIN " de la partie est exécutée après que le fichier d'entrée est lu complètement. Vous n'avez pas besoin d'initialiser des variables dans awk: une variable non initialisée est considéré comme égal à zéro ou la chaîne vide (dépend du contexte). Dans ce cas, " je " est une variable de boucle. Je pense que le défaut de tri comportement est de considérer l'ensemble de la ligne. Cette solution fonctionne pour n'importe quoi dans le fichier d'entrée: awk tableaux sont des tableaux associatifs.
- merci pour illutrasting un awk-based solution. De ce que j'ai compris, dans la première partie de stocker les histogram dans le n de la matrice de prise en compte des éléments dans la colonne $1. Le END partie signifie qu'il va être fait after l'histogramme est construit, non? Il n'est pas nécessaire d'initialiser la variable i pour les boucles dans awk? Ensuite, le sort -n va être appliquée uniquement dans la première colonne de la sortie: i, n[i], droit? j'.e pas sur n[i]? En outre, cette solution ne fonctionne que pour integer numéros (en raison de l'indexation de la table)?
- merci pour les explications très claires!
- Le awk solution a l'avantage de ne pas nécessiter sort! Pour rentrer dans l'ordre de sortie, il suffit de garder la trace des valeurs max et min vu et itérer sur leur situation, de vérifier si chacun est dans le tableau. (Cela ne fonctionne que pour les entiers, cependant, et pas avec des chars.)
- Fonctionne très bien avec des cordes trop! Juste besoin de changer $1, le premier mot, à $0, l'ensemble de la ligne: awk '{n[$0]++} END {for (i in n) print i,n[i]}' vous permet de trouver facilement et de compter en double les lignes en entrée. Génial.
- Je viens de supprimer un commentaire dans lequel je l'ai dit, j'ai rencontré un bug avec l'awk-fondé de la solution. En fait, c'était un bug dans mon code. Depuis, d'autres peuvent le faire aussi, j'ai pensé qu'il pourrait être utile de partager mon expérience ici: Mon problème était que, probablement influencée par le shell syntaxe de la boucle for, j'avais ajouté un ";" entre les "pour" et les "imprimer" dans la "FIN" de la awk de commande. En conséquence, la boucle for n'a rien fait, et l'action d'impression utilisé la dernière valeur de i seulement.
InformationsquelleAutor glenn jackman
1

Au moins une partie de ce qui peut être fait avec
```
sort output.txt | uniq -c
```
Mais l'ordre number count est inversé. Cela permettra de résoudre ce problème.
```
sort test.dat | uniq -c | awk '{print $2, $1}'
```
- Si les éléments de la première colonne sont de longueurs différentes, cela va gâcher l'alignement un peu de sorte que vous pourriez utiliser un onglet au lieu de l'espace par défaut lorsque vous réorganisez les colonnes:sort test.dat | uniq -c | awk '{print $2"\t"$1}'
InformationsquelleAutor pavium
1

En plus des autres réponses, vous pouvez utiliser awk pour faire un simple graphique. (Mais, encore une fois, ce n'est pas un histogramme.)

InformationsquelleAutor Mike Sherrill 'Cat Recall'

À l'aide de maphimbu de la Debian stda package:

# use 'jot' to generate 100 random numbers between 1 and 5
# and 'maphimbu' to print sorted "histogram":
jot -r 100 1 5 | maphimbu -s 1

De sortie:

             1                20
             2                21
             3                20
             4                21
             5                18

maphimbu travaille également avec virgule flottante:

jot -r 100.0 10 15 | numprocess /%10/ | maphimbu -s 1

De sortie:

             1                21
           1.1                17
           1.2                14
           1.3                18
           1.4                11
           1.5                19

InformationsquelleAutor agc

0
```
perl -lne '$h{$_}++; END{for $n (sort keys %h) {print "$n\t$h{$n}"}}' input.txt
```
Une boucle sur chaque ligne avec -n

Chaque $_ nombre d'incréments de hachage %h

Une fois le END de input.txt a été atteint,

sort {$a <=> $b} le hachage numériquement

Imprimer le nombre $n et la fréquence $h{$n}

Même code qui fonctionne sur virgule flottante:
```
perl -lne '$h{int($_)}++; END{for $n (sort {$a <=> $b} keys %h) {print "$n\t$h{$n}"}}' float.txt
```
float.txt
```
1.732
2.236
1.442
3.162
1.260
0.707
```
de sortie:
```
0       1
1       3
2       1
3       1
```
- sort keys %h utilise un tri lexicographique; il n'a pas trier numériquement.
- Bon point. J'ai mis à jour la réponse
InformationsquelleAutor Chris Koknat

Vous devez vous connecter pour publier un commentaire.