Compter le nombre de colonne dans un tuyau d'un fichier délimité

J'ai un tuyau | fichier délimité.

Fichier:

106232145|"medicare"|"medicare,medicaid"|789

Je voudrais compter le nombre de champs de chaque ligne. J'ai essayé le code ci-dessous

Code:

awk -F '|' '{print NF-1}'

Cela me renvoie le résultat sous la forme de 5 au lieu de 4. C'est parce que le awk prend "medicare|medicaid" comme deux domaines différents au lieu d'un champ

La seule façon que je peux penser à ce que vous avez 5 au lieu de 4 avec cette commande si vous avez réellement fait awk -F\" ... (ou à la place de la double citation, l'un des autres personnages qui se produit 4 fois dans la chaîne, comme d ou i...). En fait, avec NF-1, vous devriez avoir obtenu 3 à la place...
Mais ton exemple ne contiennent pas de "medicare|medicaid" ??
Si vous avez des données que peut contenir le délimiteur dans la cité des valeurs de champ, alors vous avez besoin d'un spécialisé CSV style de l'analyseur. Les chances sont csvfix pouvez faire ce que vous avez besoin. Voir aussi Linux outil pour analyser les fichiers CSV. Il y a des modules Perl à l'aide; il est probable que Python et Ruby ont des modules pour aider trop.

InformationsquelleAutor Maulzey | 2013-07-09

7
```
awk -F\| '{print NF}'
```
donne le résultat correct.
- -1 - ce des pauses lorsque le fichier contient des pipes comme une partie du domaine (par exemple "medicare|medicaid"), ce qui est valable dans le cas général les fichiers délimités.
InformationsquelleAutor unxnut
4

Pur Unix solution (sans awk/Perl):
```
$ cat  /tmp/x1
1|2|3|34
4534|23442|1121|334434

$ head -1 /tmp/x1 | tr "|" "2" | wc -l
4
```
Perl solution - 1-liner:
```
$ perl5.8 -naF'\|' -e 'print scalar(@F)."\n";exit;' /tmp/x1
4
```
MAIS!!!! IMPORTANT!!!

Chacun de ces solutions, ainsi que celles concernant d'autres réponses - ne PAS travailler à 100%!

À savoir, ils cassent tous quand c'est un VÉRITABLE "pipe-séparé" du fichier, avec un tuyau à un caractère valide dans le champ (et le terrain d'être cités), le chemin réel de fichiers CSV travail.

E. g.
```
$ cat /tmp/x2
"0|1"|2|3|34
4534|23442|1121|334434
$ perl5.8 -naF'\|' -e 'print scalar(@F)."\n";exit;' /tmp/x1
5   <----- BROKEN!!! There are only 4 fields, first field is "0|1"
```
Pour corriger cela, un bon CSV (ou d'un fichier délimité) analyseur doit être utilisé, comme on en Perl:
```
$ perl5.8 -MText::CSV_XS 
-ne '$csv=Text::CSV_XS->new({sep_char => "|"});  $csv->parse($_); 
print $csv->fields(); print "\n"; exit;' /tmp/x2
```
Imprime valeur correcte
```
4
```
Comme une note, il suffit de la fixation d'un awk ou sed solution alambiquée RegEx ne fonctionne pas facilement, puisque sur le dessus de la pipe-contenant-et-cité PSV champs, le spec permet également citations comme une partie du domaine ainsi. Qui ne se prête PAS à une belle RegEx solution.
- tr, head et wc ne sont pas plus "pure unix" que awk... perl est un peu différente de l'histoire...
- certains anciens dépouillé les unix peut venir sans awk ou Perl. Ou les systèmes Windows, Unix util paquets installés
- Ne peut pas en désaccord sur perl, mais awk fait partie de SUS, LSB et d'autres normes similaires. Bien sûr, quelqu'un pourrait intentionnellement choisir de ne pas installer certains paquets de base, mais cela ne veut pas rendre leur installation plus "pur" (et en fait, peut le rendre plus "cassé")...
- le fait que vous utilisez le mot "paquets de base" signifie que vous ne parlons PAS d'unix plus/étrangeté que ceux avec les gestionnaires de paquets.
- Au contraire, je voulais dire "paquets" dans une beaucoup plus de sens générique - si c'est un RPM, ou un tar archive ou un shar ou uuencoded fichier, c'est encore un "pack" au sens générique. Et bien que je n'ai jamais travaillé sur un PDP-11, je fais au moins souvenez-vous de l'installation de SunOS 2.5 à partir de disquettes, et de l'apprentissage C dans un AT&T SVR2 système...
- Juste posé sur Unix.SE. Apparemment, BusyBox par défaut d'installer exclut awk
- Awk est apparu en V7 et a toujours été dans BSD, de sorte que vous auriez du mal à trouver un historique d'Unix sans elle, c'est encore en cours d'exécution. Toutes les distributions d'outils Unix pour les non-systèmes d'exploitation Unix inclure. Les seuls systèmes qui peut être appelé Unix et être utilisé dans la pratique d'aujourd'hui qui n'ont pas de awk sont des systèmes embarqués (probablement en cours d'exécution Busybox), et ils peuvent être décrites comme étant l'exécution d'un stripped-down Unix. Perl, d'autre part, est généralement absent de incorporés Unices, n'est-ce pas dans MINIX3 ou le défaut de NetBSD installer.
- entièrement d'accord sur Perl. La discussion portait sur la première solution, que j'ai appelé "pure Unix" pour ne pas utiliser awk NI perl. La raison pour laquelle je n'ai pas la fourniture d'un awk solution est parce qu'il était déjà présent dans une autre réponse, pas de profonds awk la haine 🙂
- Un pur “unix” solution pouvez utiliser awk. Si quelqu'un vous dit qu'ils sont en cours d'exécution “Unix” ou “Linux”, vous pouvez supposer qu'ils ont awk (et Perl est probablement trop, mais ce n'est pas absolument garanti). S'ils vous disent qu'ils sont en cours d'exécution “un stripped-down unix” (ou des synonymes), vous êtes en droit de s'inquiéter à propos de awk.
- un autre avantage de ne pas dépendre sur awk - systèmes comme la mienne qui sont Windows boxen avec un ensemble de commandes Unix installé (PAS de cygwin), mais pas de Strawberry Perl. AFAIR, ces forfaits comprennent tr/tête/etc... mais PAS awk. Rappelez-vous, vous ne les appelez pas "Unix", je suppose 🙂 de toute façon, si c'était sur la Politique de la SE, l'ensemble de ce fil de commentaires aurait été nuked par Yannis déjà, comme il est totalement hors de propos à la question OU la réponse elle-même :). Et je ne vois pas de "vous permet de prendre cela pour chat" lien pour une raison quelconque.
- Un utilitaire Unix distribution sans awk, vraiment? Msys, GNUwin32, DJGPP, Git bash tous awk. Un ensemble de POSIX utilitaires a évidemment awk.
- laissez-nous continuer cette discussion dans le chat
InformationsquelleAutor DVK

$ cat fieldparse.awk
#NR > 1 { print "--"; }

# Uncomment printf/print in the for loops to see
#   each field on a separate line as well as the commented line above (to show that it works).
{
    nfields = 0;
    for (i = 1; i <= NF; i++) {
        if ($i ~ /^".*[^"]$/)
            for (; i <= NF && ($i !~ /.*"$/); i++) {
                #printf("%s%s", $i, FS);
            }
        #print $i;
        nfields++;
    }
    print nfields;
    if (FILENAME == "-")
        FILENAME = "(standard input)";
    filenames[FILENAME] = sprintf("%d %d", FNR, nfields);
}

END {
    print NR, "total records processed";
    for (f in filenames) {
        split(filenames[f], fn, " ");
        printf("\t* %s: %d records with %d fields\n", f, fn[1], fn[2]);
    }
}

$ awk -F'|' -f fieldparse.awk demo.txt

Cela fonctionne pour n'importe quel caractère unique séparateur qui n'est PAS un guillemet double, sens standard délimités par des tabulations, CSV, etc. formats (standard comme ils obtiennent tout de même...)

Le format de sortie est purement illustrative et un peu décoratifs à la fin, mais le contenu est toujours utile, à mon humble avis, comme la gestion de plusieurs fichiers. En tout cas, j'espère que cela aide! 🙂

Modifier

Cela a été testé à l'aide de mawk et GNU awk (gawk), dont le dernier a été testé en traditionnel, POSIX et les modes par défaut. Garniture de commentaires et de sortie des déclarations pour le trouver, il en fait un petit programme, mais il n'est pas aussi petit que l'on voudrait.

InformationsquelleAutor

0

Pour un | fichier délimité avec embedded | entre ce GNU awk v4.0 ou version ultérieure devrait fonctionner:
```
gawk '{ print NF }' FPAT="([^|]+)|(\"[^\"]+\")"
```
- -1 - ce des pauses lorsque le fichier contient des pipes comme une partie du domaine (par exemple "medicare|medicaid"), ce qui est valable dans le cas général les fichiers délimités.
- Désolé bon point. J'ai mis à jour la solution pour les lignes intégré dans les tuyaux.
- Maintenant, essayez de le mettre à jour pour tenir compte des guillemets étant partie de la zone de texte, mise à jour de votre version ne fonctionne pas sur) (possible avec une RegEx, peut-être. Mais PÉNIBLE!)
- Vous avez absolument raison. L'analyse d'un fichier csv (bien que la pipe délimité) avec awk est comme l'analyse de xml. Va briser à quelques rares cas de bord.
InformationsquelleAutor jaypal singh
-1

perl -ne 'print scalar( split( /\|/, $_ ) ) . "\n"' [nom de fichier]

InformationsquelleAutor PP.

Vous devez vous connecter pour publier un commentaire.