manipulation fichier texte

par **fredmarseil** » 15 Nov 2004 21:03

Bonjour,

Je cherche une solution pour pouvoir traiter une ligne particuliere d'un fichier texte.

mon fichier se presente ainssi:

ligne1
ligne2
ligne3
....
ligne x

Je voudrai pouvoir afficher le contenu de la ligne 3 entière, et uniquement celle-là.
Les commandes head et tail se rapprochent, mais ne se limitent pas à l'unique ligne..

Merci pour votre aide :-)

par **tomtom** » 15 Nov 2004 21:17

Il n'y a qu'à combiner les 2

cat monfichier.txt | head -x | tail -1

simple, isn't it ?

t.

par **micjack** » 15 Nov 2004 21:21

Salut,

Et avec avec grep ?

grep ligne3 NomDuFichier ..... Il t'affichera la ligne complete

Mais tes lignes sont vraiement numerotées ligne1, ligne2, ligne3 dans ton fichier??

EDIT: Il me sembles raconter des $%#&!*ries :roll:

Ca serrait trop facile

---> [ ]

par **fredmarseil** » 15 Nov 2004 21:30

non mon fichier se présente comme ceci :

Code:Societe:C.A.:C.A.prevu:Variation:Contact:Fonction:Adresse:Ville
ALFKI:Alfred's Futterkiste:77.8050525:103.85014:1.33474803:Maria Anders:Representante:Obere Str.57:Berlin
ANATL:L'anatra laccata:771.700421:834.332148:1.08116068:Anna Grandi:Proprietaire:Via Gramsci 209:Verona
ANTOB:Antonio Berbi Salumi:290.31742:411.875041:1.41870592:Antonio Berbi:Proprietaire:V
AROUT:Around the Horn:322.144627:642.261176:1.99370445:Thomas Hardy:Representant:Brook Farm Stratford St. Marc:Colchester
BERGS:Berglunds snabbkop:382.752211:467.260175:1.22079027:Christina Berglun:Proprietaire:Berguvsvgen 8:Lulea
LONP:Bldere et fils:592.578837:1142.53984:1.92808073:Frederique Citeau:Directeur du marketing:24, place Kleber:Strasbourg
BOLID:Bolinderska boden:892.210157:1434.03482:1.60728367:Kalle Berglund:Proprietaire:Lannavagen 16:Halmstad
BONAP:Bon app':344.275299:460.997874:1.33903848:Laurence Lebihan:Proprietaire:12, rue des Bouchers:Marseille

en fait je dois pouvoir traiter ligne par ligne, compter le nombre de champs separés par ":" (mais ca g trouvé, et compter le nombre de caractere de chaque champ..

donc le grep ne marchera pas, car acune ligne commence pareil..
l'idée du head et tail fonctionne bien, mais g peur ke mon prof prefere une solution plus clean..

par **tomtom** » 15 Nov 2004 21:36

head | tail est le moyen le plus "simple" et "propre" pour sortir une ligne au hasard d'un fichier;

Mais si ton objectif est de traiter ligne par ligne, tu as u programme fait exprès pour ça qui s'appelle awk.

Je te conseille la lecture de son man, c'est un outil extremement puissant.

AMHA, tu as un devoir sur les batches unix à faire. Si tun nous donnais plus de précisions sur ce que tu veux faire, on pourrait mieux t'aider.

t.

par **fredmarseil** » 15 Nov 2004 21:49

ok, alors nous avons un fichier de données (ci dessous)..
La premiere ligne represente le nom des colonnes (code, societe, ca, ....)
et les lignes suivantes sont les données de chaque colonnes, mais tout est en vrac (enfin presque)
les données sont séparées par ":" .

Le but du "jeu" est de faire un script qui affichera le nom de la colonne et la largeur maximale qui faudra lui attribuer (en supposant qu'on voudra l'inserer dans une bdd)
Par exmple pour la colonne "code" il devra afficher "la colonne code a une largeur de: 5 caracteres max", la colonne "societe a pour largeur max: 15" etc...

j'ai donc deja effectué un calcul automatique du nombre de ligne, et j'arrive a distinguer les champs avec un cut.
Seulement faut mettre tout ca en route c pas evident.
J'avais dans l'idée de faire une boucle ki scane d'abord la 1ere colonne, ligne par ligne (d où mon post), ensuite on passe a la 2eme colonne et ligne 1, ligne 2....

Pour ce qui est de awk, on n'a pas étudier, et le prof veut kon se debrouille avec cut, sed, grep, wc, head, ...

merci

voici le fichier a traiter :

Code:Societe:C.A.:C.A.prevu:Variation:Contact:Fonction:Adresse:Ville
ALFKI:Alfred's Futterkiste:77.8050525:103.85014:1.33474803:Maria Anders:Representante:Obere Str.57:Berlin
ANATL:L'anatra laccata:771.700421:834.332148:1.08116068:Anna Grandi:Proprietaire:Via Gramsci 209:Verona
ANTOB:Antonio Berbi Salumi:290.31742:411.875041:1.41870592:Antonio Berbi:Proprietaire:V
AROUT:Around the Horn:322.144627:642.261176:1.99370445:Thomas Hardy:Representant:Brook Farm Stratford St. Marc:Colchester
BERGS:Berglunds snabbkop:382.752211:467.260175:1.22079027:Christina Berglun:Proprietaire:Berguvsvgen 8:Lulea
LONP:Bldere et fils:592.578837:1142.53984:1.92808073:Frederique Citeau:Directeur du marketing:24, place Kleber:Strasbourg
BOLID:Bolinderska boden:892.210157:1434.03482:1.60728367:Kalle Berglund:Proprietaire:Lannavagen 16:Halmstad
BONAP:Bon app':344.275299:460.997874:1.33903848:Laurence Lebihan:Proprietaire:12, rue des Bouchers:Marseille
BOTTM:Bottom-Dollar Markets:908.267935:1190.48452:1.31071953:Elizabeth Lincoln:Chef comptable:23 Tsawassen Blvd.:Tsawassen
BSBEV:B's Beverages:787.856889:1381.77378:1.75383855:Victoria Ashworth:Representante:Fauntleroy Circus:London
CACTP:Cactus Pete's Family Market:659.72765:921.363771:1.39658201:Murray Soderholm:Assistant des ventes:87 Yuca Dr.:Albuquerque
CENTC:Centro Commerciale Bonoli:43.294606:60.9437437:1.40765212:Olivia Monti:Directeur du marketing:Plazza Locatelli 76:Napoli
EASTC:Eastern Connection:762.751309:909.149732:1.19193467:Ann Devon:Assistante des ventes:35 King George:London
ERNSH:Ernst Handel:201.751954:326.287311:1.61726964:Roland Mendel:Chef des ventes:Kirchgasse 6:Graz
FOLIG:Folies gourmandes:416.470845:571.186391:1.3714919:Martine Rance:Assistante representant:184, chaussee de Tournai:Lille
FOLKO:Folk och fa HB:633.300708:1176.40537:1.85757786:Maria Larsson:Proprietaire:kergotan 24:Brucne
FRANK:Frankenversand:483.47381:680.545535:1.40761613:Peter Franken:Directeur du marketing:Berliner Platz 43:München
FRANR:France restauration:409.378826:704.447839:1.72077253:Carine Schmitt:Directeur du marketing:54, rue Royale:Nant
FRANS:Franchi S.p.A.:918.387741:1558.80813:1.69733116:Paolo Accorti:Representant:Via Monte Bianco 34:Torino
FUJO:Furia Bacalhau e Frutos do:700.655465:944.937356:1.34864766:Lino Rodriguez:Chef des ventes:Jardim das rosas n. 32:Lisboa

par **jdh** » 15 Nov 2004 23:22

Pourtant, typiquement, ce type de fichier est à traiter avec "awk".

Dans la section BEGIN, on lit une ligne (la première donc c'est à dire les noms de champs).
- la commande split va permettre de découper chaque élément de la ligne grace au séparateur ":".
- on sauve les nom de champs.
- on initialise les longeurs de chaque champ à 0.

Dans la boucle de traitement,
- même usage de split
- boucle sur chaque élément : si longueur > longueurmax alors longueurmax=longueur

Dans la section END,
- boucle sur chaque champ : print nom du champ, longueurmax

12-15 lignes, efficace !

Si on veut faire un bash script (avec les cut, sed, et autres ...) c'est plus difficile car la manipulation des chaines (notamment la longueur) n'est pas simple.

par **tomtom** » 15 Nov 2004 23:45

Hum, ca m'a fait un bon exercice de révision.

Cadeau :

Code: Tout sélectionner: #!/bin/bash #### # Parsing d'un fichier texte # # Ca serait mieux avec awk mais 'parait que c'est pas bien # # TomTom # ### ### Quelques initialisations FICHIER_TXT=./test.txt NB_LIGNE=$(wc -l $FICHIER_TXT) NB_COL=1 while [ ""$(head -1 $FICHIER_TXT | cut -d ":" -f $[$NB_COL+1]) != "" ] do NB_COL=$[NB_COL+1] done for ((COL=1;COL<=$NB_COL;COL++)) do COLONE[$COL]=$(head -1 $FICHIER_TXT | cut -d ":" -f $COL) MAX_CHAMP[$COL]=0 done ### Boucle de calcul for ((NUM_LIGNE=2;NUM_LIGNE<=$NB_LIGNE;NUM_LIGNE++)) do LIGNE=$(head -$NUM_LIGNE $FICHIER_TXT | tail -1) for ((COL=1;COL<=$NB_COL;COL++)) do CHAMP=$(echo $LIGNE | cut -d ":" -f $COL) LONG_CHAMP=$[$(echo $CHAMP |wc -m)-1] if (( $LONG_CHAMP > ${MAX_CHAMP[$COL]} )) then MAX_CHAMP[$COL]=$LONG_CHAMP fi done done ### Affichage for ((COL=1;COL<=$NB_COL;COL++)) do echo "La longueur maximale du champ n°$COL \"${COLONE[$COL]}\" est : ${MAX_CHAMP[$COL]}" done

Essaye quand mêem de comprendre tout ce que ça fait, ça t'evitera des ennuis.
Et ce serait quand même vachement mieux avec awk... Mais peut-etre que ton prof utilise ce pretexte pour vous convaincre que awk c'est moins fatiguant :lol:

a+

T.

par **jdh** » 15 Nov 2004 23:56

Une fois de plus, Tomtom est le plus rapide !

En awk, j'ai trouvé :

Code: Tout sélectionner: #!/usr/bin/awk -f BEGIN { FS=":"; getline; for (i=1; i<=NF; i++) { ch[i]=$(i); lg[i]=0; }; } { for (i=1; i<=NF; i++) { l=length($(i)); if (l>lg[i]) lg[i]=l; }; } END { for (i=1; i<=NF; i++) {print "Champ \"" ch[i] "\" longueur max " lg[i];}; }

Je suis désolé 6 lignes (dont 1 pour shabang (?) : #!xxxx)

Je vais regarder quand même le script bash de Tomtom !

par **neox** » 16 Nov 2004 00:16

on doit pouvoir le faire en perl aussi, mais là j'ai la flemme

ca donnerait un truc dans le style

Code: Tout sélectionner: #!/bin/perl -w FIC=open(monfichier.txt) while (<FIC>) { $LIGNE=$_; compte les champs($LIGNE); compte_les_caracteres($LIGNE); .... } close(FIC);

bon ok pas mieux que 6 lignes :-(

par **fredmarseil** » 16 Nov 2004 00:24

Ah merci tout le monde, c genial tout ca, bon v essayer de comprendre quand même;
v avoir une bonne note je sens lol., si le prof il comprend pas que je me suis fait aidé ;-)

merci pour le temps que vous y avait passé -)

à bientôt :-)

par **jdh** » 16 Nov 2004 03:25

Désolé, Tomtom, j'ai eu du mal à comprendre ton script.
Surtout il saute au yeux qu'il lit le fichier sans arret (head -1, tail , ...)
Il me semblait important de traiter le fichier en une seule lecture si possible.

Après un travail assez long, à me repencher sur le scripting bash, j'ai abouti à ceci (certes plus long mais plus rapide) :

Code: Tout sélectionner: #!/bin/bash # # calcul des longueurs de champs # # le fichier a analyser est en parametre $1 FIC=$1 # declaration des variables numch=0 # nb de champs (+1) ch=(" ") # noms des champs lg=(0) # longueurs max des champs trchamp=1 # 1 pour la premiere ligne puis 0 # boucle de parcours du fichier (noter que le fichier est au "done" final) while read ligne do OIFS=$IFS # astuce : decoupage de $ligne grace au : (=$IFS) IFS=":" set $ligne if [ "$trchamp" = "1" ] then # traiter la ligne des champs numch=1 until [ -z "$1" ] do ch[$numch]=$1 # nom du champ lg[$numch]=0 shift numch=$[numch+1] done trchamp=0 else # traiter les autres lignes i=1 until [ -z "$1" ] do v=$1 l=${#v} # longueur du champ if [ "$l" -gt "${lg[$i]}" ] then lg[$i]=$l fi shift i=$[i+1] done fi IFS=$OIFS done <$FIC # affichage resultat i=1 while [ "$i" -lt $numch ] do echo "champ \"${ch[$i]}\" longueur max : ${lg[$i]}" i=$[i+1] done

A noter l'astuce essentielle :
IFS=":" -> séparateur :
set $ligne -> transformation de la variable en parametre ($x)
until [-z "$1] do ... shift; done -< boucle de parcours des paramêtres un par un !

J'ai copié ta syntaxe pour incrémenter mais j'écrit parfois "let "i+=1" qui marche aussi.
A noter que j'écris "while read do ... done <$FIC" et non "cat $FIC | while read do ... done".
Cela posait un sérieux problème de variable mis à jour à l'intérieur d'un sous-shell ;=)
J'ai mis un temps énnnnaurme (oui) à comprendre ce qui clochait.

J'ai testé : cela donne les mêmes résultats que mon script awk (ouf!). Mais awk est vraiment idéal.

par **Jacques-** » 16 Nov 2004 09:45

Pour lire juste la ligne 3 du fichier, essayez donc avec :
awk 'NR==3' MonFichierQueJeVeuxLire

(NR : Number Record, == : Egalité stricte, 3 : Valeur demandée)

Jacques

par **tomtom** » 16 Nov 2004 10:23

jdh a écrit:Désolé, Tomtom, j'ai eu du mal à comprendre ton script.
Surtout il saute au yeux qu'il lit le fichier sans arret (head -1, tail , ...)
Il me semblait important de traiter le fichier en une seule lecture si possible.

Tu as tout à fait raison..

J'ai ecrit ca en 5 minutes et j'ai fait au plus court... Je me suis bien rendu compte que je relisais tout le fichier à chaque fois, mais j'ai eu le flemme ( :oops:

) de réécrire la boucle à ta façon

Le shift est élégant... [-o<

a+

t.

par **Franck78** » 16 Nov 2004 11:30

@jdh

Ton algo quelques messages plus avant est bon cependant la traduction en bash n'est pas top.

Tu inclus dans la boucle principale un test complétement inutile puisqu'exécuté une fois et pour la première ligne ;-)

Rien à faire dans la boucle...

read ligne
init des champs

while read ligne
traitement de chaque ligne de data

Utilité de OIFS=IFS dans la boucle ?

Bye

manipulation fichier texte

manipulation fichier texte

re

re

re

Qui est en ligne ?