2002-12-09 04:39:15 +01:00
|
|
|
|
<?xml version="1.0" encoding="ISO-8859-1"?>
|
|
|
|
|
<!DOCTYPE html
|
|
|
|
|
PUBLIC "-//ENS/Tuteurs//DTD TML 1//EN"
|
|
|
|
|
"tuteurs://DTD/tml.dtd">
|
|
|
|
|
<html>
|
|
|
|
|
<head>
|
|
|
|
|
<title>grep</title>
|
|
|
|
|
</head>
|
|
|
|
|
<body>
|
|
|
|
|
|
|
|
|
|
|
2007-07-17 12:01:59 +02:00
|
|
|
|
<h1>Exercices sur <code>grep</code><3E>: corrig<69>s</h1>
|
2002-12-09 04:39:15 +01:00
|
|
|
|
|
|
|
|
|
<p>
|
2007-07-17 12:01:59 +02:00
|
|
|
|
Ces exercices sont des questions de cours<72>: les solutions se trouvent
|
2002-12-09 04:39:15 +01:00
|
|
|
|
toutes dans les pages de man des commandes en question. On suppose donc
|
|
|
|
|
connues les commandes de <code>less</code>, qui servent <20> se d<>placer dans les
|
|
|
|
|
pages de man... et la commande servant <20> chercher un mot. Testez les
|
|
|
|
|
commandes sur des fichiers et r<>pertoires d'essai pour vous faire la main et
|
|
|
|
|
comprendre ce qui se passe.
|
|
|
|
|
</p>
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
<h2><a name="options">Les options de <code>grep</code></a></h2>
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
<ol>
|
|
|
|
|
|
|
|
|
|
<li><a name="grep1"> <strong>Quelles sont les options de <code>grep</code>
|
|
|
|
|
qui permettent d'obtenir des lignes de contexte (qui pr<70>c<EFBFBD>dent et/ou suivent
|
2007-07-17 12:01:59 +02:00
|
|
|
|
la ligne o<> figure le mot)<29>? </strong> </a> <p>
|
2002-12-09 04:39:15 +01:00
|
|
|
|
|
2007-07-17 12:01:59 +02:00
|
|
|
|
Il y en a plusieurs, qui se recoupent<6E>:</p>
|
2002-12-09 04:39:15 +01:00
|
|
|
|
|
|
|
|
|
<ul>
|
2007-07-17 12:01:59 +02:00
|
|
|
|
<li> <code>-<em>num</em></code><3E>: le <em>num<75>ro</em> indique le nombre de
|
2002-12-09 04:39:15 +01:00
|
|
|
|
lignes de contexte que l'on veut voir figurer avant et apr<70>s la ligne o<>
|
|
|
|
|
figure le mot recherch<63>. Par exemple, si on veut trois lignes de contexte,
|
2007-07-17 12:01:59 +02:00
|
|
|
|
avant et apr<70>s la mot (soit sept lignes au total), on tape<70>:
|
2002-12-09 04:39:15 +01:00
|
|
|
|
|
|
|
|
|
<pre>
|
|
|
|
|
grep -3 ...
|
|
|
|
|
</pre>
|
|
|
|
|
</li>
|
|
|
|
|
|
2007-07-17 12:01:59 +02:00
|
|
|
|
<li> <code>-A <em>num</em></code> (<em>after</em>)<29>: le <em>num<75>ro</em>
|
2002-12-09 04:39:15 +01:00
|
|
|
|
indique le nombre de lignes qui doivent suivre la ligne o<> figure le mot. Si
|
2007-07-17 12:01:59 +02:00
|
|
|
|
on en veut quatre, on tapera<72>:
|
2002-12-09 04:39:15 +01:00
|
|
|
|
|
|
|
|
|
|
|
|
|
|
<pre>
|
|
|
|
|
grep -A 4 ...
|
|
|
|
|
</pre>
|
|
|
|
|
</li>
|
|
|
|
|
|
|
|
|
|
|
2007-07-17 12:01:59 +02:00
|
|
|
|
<li> <code>-B <em>num</em></code> (<em>before</em>) <20>: le
|
2002-12-09 04:39:15 +01:00
|
|
|
|
<em>num<75>ro</em> indique le nombre de lignes qui doivent pr<70>c<EFBFBD>der la ligne o<>
|
2007-07-17 12:01:59 +02:00
|
|
|
|
figure le mot. Si on en veut dix, on tape<70>:
|
2002-12-09 04:39:15 +01:00
|
|
|
|
|
|
|
|
|
<pre>
|
|
|
|
|
grep -B 10 ...
|
|
|
|
|
</pre>
|
|
|
|
|
</li>
|
|
|
|
|
|
|
|
|
|
<li> <code>-C</code> (<em>context</em>), qui donne deux lignes de contexte
|
|
|
|
|
avant et apr<70>s. En fait, les trois lignes suivantes sont strictement
|
2007-07-17 12:01:59 +02:00
|
|
|
|
<EFBFBD>quivalentes<EFBFBD>:
|
2002-12-09 04:39:15 +01:00
|
|
|
|
<pre>
|
|
|
|
|
grep -2 ...
|
|
|
|
|
grep -C ...
|
|
|
|
|
grep -A 2 -B 2 ...
|
|
|
|
|
</pre>
|
|
|
|
|
</li>
|
|
|
|
|
|
|
|
|
|
</ul></li>
|
|
|
|
|
|
|
|
|
|
<li><a name="grep2"> <strong>Comment faire appara<72>tre le num<75>ro de la
|
2007-07-17 12:01:59 +02:00
|
|
|
|
ligne o<> figure le mot recherch<63><68>? </strong> </a>
|
2002-12-09 04:39:15 +01:00
|
|
|
|
<p>
|
|
|
|
|
C'est l'option <code>-n</code> (<em>number</em>) qui sert <20> cela; le num<75>ro
|
|
|
|
|
figure tout au d<>but de la ligne, suivi d'un deux-points (<code>:</code>) et
|
2007-07-17 12:01:59 +02:00
|
|
|
|
du texte. Par exemple<6C>: </p>
|
2002-12-09 04:39:15 +01:00
|
|
|
|
|
|
|
|
|
<pre>
|
2007-07-17 12:01:59 +02:00
|
|
|
|
<span class="prompt">bireme ~ $</span><3E>grep<65>-n<>violon<6F>verlaine.tex
|
2002-12-09 04:39:15 +01:00
|
|
|
|
12:des violons de l'automne
|
|
|
|
|
</pre>
|
|
|
|
|
<p>
|
|
|
|
|
Quand on fait une recherche dans plusieurs fichiers, le nom du fichier figure
|
|
|
|
|
d'abord, puis le num<75>ro de la ligne, et enfin le texte, le tout s<>par<61> par des
|
2007-07-17 12:01:59 +02:00
|
|
|
|
deux-points. Par exemple<6C>:
|
2002-12-09 04:39:15 +01:00
|
|
|
|
</p>
|
|
|
|
|
|
|
|
|
|
<pre>
|
2007-07-17 12:01:59 +02:00
|
|
|
|
<span class="prompt">bireme ~ $</span><3E>grep<65>-n<>violon<6F>*
|
2002-12-09 04:39:15 +01:00
|
|
|
|
verlaine.tex:12:des violons de l'automne
|
|
|
|
|
orchestre:45:Cordes : contrebasse, violoncelle, alto, violons.
|
|
|
|
|
</pre>
|
|
|
|
|
|
|
|
|
|
<strong>Que se passe-t-il quand on demande <20>galement des lignes de
|
2007-07-17 12:01:59 +02:00
|
|
|
|
contexte<EFBFBD>?</strong> <p>
|
2002-12-09 04:39:15 +01:00
|
|
|
|
|
|
|
|
|
La disposition g<>n<EFBFBD>rale ne change pas, par contre, le signe utilis<69> pour
|
|
|
|
|
s<EFBFBD>parer la ligne de son num<75>ro est un tiret (<code>-</code>) quand il s'agit
|
|
|
|
|
des lignes de contexte, et un deux-points quand il s'agit de la ligne voulue.
|
2007-07-17 12:01:59 +02:00
|
|
|
|
Par exemple<6C>: </p>
|
2002-12-09 04:39:15 +01:00
|
|
|
|
|
|
|
|
|
<pre>
|
2007-07-17 12:01:59 +02:00
|
|
|
|
<span class="prompt">bireme ~ $"</span><3E>grep<65>-nC<6E>violon<6F>verlaine.tex
|
2002-12-09 04:39:15 +01:00
|
|
|
|
10-
|
|
|
|
|
11-Les sanglots longs
|
|
|
|
|
12:des violons de l'automne
|
|
|
|
|
13-bercent mon coeur
|
|
|
|
|
14-d'une langueur monotone
|
|
|
|
|
</pre>
|
|
|
|
|
</li>
|
|
|
|
|
|
|
|
|
|
<li><a name="grep22"> <strong> Comment faire pour afficher le nombre
|
2007-07-17 12:01:59 +02:00
|
|
|
|
d'occurences du mot recherch<63><68>? </strong> </a> <p>
|
2002-12-09 04:39:15 +01:00
|
|
|
|
|
2007-07-17 12:01:59 +02:00
|
|
|
|
On utilise l'option <code>-c</code> (<em>count</em>)<29>:
|
2002-12-09 04:39:15 +01:00
|
|
|
|
</p>
|
|
|
|
|
|
|
|
|
|
<pre>
|
2007-07-17 12:01:59 +02:00
|
|
|
|
<span class="prompt">bireme ~ $</span><3E>grep<65>-c<>violon<6F>*
|
2002-12-09 04:39:15 +01:00
|
|
|
|
verlaine.tex:1
|
|
|
|
|
orchestre:1
|
|
|
|
|
</pre>
|
|
|
|
|
</li>
|
|
|
|
|
|
|
|
|
|
<li><a name="grep23"> <strong> Comment faire pour que <code>grep</code>
|
|
|
|
|
ignore la casse des caract<63>res (diff<66>rence entre majuscules et minuscules)
|
2007-07-17 12:01:59 +02:00
|
|
|
|
dans sa recherche<68>? </strong> </a>
|
2002-12-09 04:39:15 +01:00
|
|
|
|
<p>
|
|
|
|
|
Par d<>faut, <code>grep</code> fait la diff<66>rence entre les majuscules et les
|
|
|
|
|
minuscules; pour invalider ce comportement, on utilise l'option
|
|
|
|
|
<code>-i</code> (<em>ignorecase</em>).</p>
|
|
|
|
|
</li>
|
|
|
|
|
|
|
|
|
|
<li><a name="grep4"> <strong>Comment faire pour faire appara<72>tre non pas les
|
2007-07-17 12:01:59 +02:00
|
|
|
|
lignes o<> figurent le mot, mais les noms des fichiers<72>?</strong> </a>
|
2002-12-09 04:39:15 +01:00
|
|
|
|
<p>
|
2007-07-17 12:01:59 +02:00
|
|
|
|
C'est l'option <code>-l</code> qui permet de faire cela<6C>: afficher les
|
2002-12-09 04:39:15 +01:00
|
|
|
|
noms des fichiers o<> figure au moins une fois la cha<68>ne de caract<63>res
|
|
|
|
|
recherch<EFBFBD>e.</p></li>
|
|
|
|
|
|
|
|
|
|
<li><a name="grep5"> <strong>Comment faire appara<72>tre les lignes o<> ne
|
2007-07-17 12:01:59 +02:00
|
|
|
|
figurent pas le mot recherch<63><68>? </strong> </a>
|
2002-12-09 04:39:15 +01:00
|
|
|
|
<p>
|
2007-07-17 12:01:59 +02:00
|
|
|
|
On veut en fait inverser le sens de la recherche<68>: c'est l'option
|
2002-12-09 04:39:15 +01:00
|
|
|
|
<code>-v</code> qui fait cela.
|
|
|
|
|
</p></li>
|
|
|
|
|
|
|
|
|
|
<li><a name="grep51"> <strong> Comment faire appara<72>tre les noms des fichiers
|
2007-07-17 12:01:59 +02:00
|
|
|
|
ne contenant pas le mot recherch<63><68>? </strong> </a>
|
2002-12-09 04:39:15 +01:00
|
|
|
|
<p>
|
|
|
|
|
On utilise l'option <code>-L</code>, qui affiche les noms de fichiers o<> ne
|
|
|
|
|
figurent pas la cha<68>ne de caract<63>res recherch<63>e. Il ne faut bien s<>r pas
|
|
|
|
|
confondre les options <code>-l</code> et <code>-L</code>...
|
|
|
|
|
</p></li>
|
|
|
|
|
|
|
|
|
|
<li><a name="grep6"> <strong>Comment faire pour que <code>grep</code> ne
|
|
|
|
|
recherche que les lignes o<> figure le mot tel quel, et non pas ses
|
2007-07-17 12:01:59 +02:00
|
|
|
|
variantes<EFBFBD>? </strong> </a> <p>
|
2002-12-09 04:39:15 +01:00
|
|
|
|
|
2007-07-17 12:01:59 +02:00
|
|
|
|
C'est l'option <code>-w</code> (comme <em>word</em>) qui sert <20> cela<6C>: un
|
|
|
|
|
mot complet est d<>limit<69> comme suit<69>:
|
2002-12-09 04:39:15 +01:00
|
|
|
|
</p>
|
|
|
|
|
|
|
|
|
|
<ul>
|
|
|
|
|
|
2007-07-17 12:01:59 +02:00
|
|
|
|
<li> D<>but<75>: la cha<68>ne de caract<63>res est plac<61>e au d<>but d'une ligne, ou
|
2002-12-09 04:39:15 +01:00
|
|
|
|
pr<EFBFBD>c<EFBFBD>d<EFBFBD>e d'un blanc, d'une tabulation ou d'une ponctuation.</li>
|
|
|
|
|
|
2007-07-17 12:01:59 +02:00
|
|
|
|
<li> Fin<69>: la cha<68>ne de caract<63>re est plac<61>e en fin de ligne, ou suivie
|
2002-12-09 04:39:15 +01:00
|
|
|
|
d'un blanc, d'une tabulation ou d'une ponctuation.</li>
|
|
|
|
|
|
|
|
|
|
</ul>
|
|
|
|
|
|
|
|
|
|
<p>
|
|
|
|
|
Si donc on veut chercher <20>travail<69> et aucune forme d<>riv<69>e de ce mot, on
|
2007-07-17 12:01:59 +02:00
|
|
|
|
<EFBFBD>crit<EFBFBD>:
|
2002-12-09 04:39:15 +01:00
|
|
|
|
</p>
|
|
|
|
|
|
|
|
|
|
<pre>
|
|
|
|
|
grep -w travail mon-fichier
|
|
|
|
|
</pre>
|
|
|
|
|
</li>
|
|
|
|
|
|
|
|
|
|
<li><a name="grep3"> <strong>Comment faire pour chercher plusieurs mots <20> la
|
2007-07-17 12:01:59 +02:00
|
|
|
|
fois en faisant appara<72>tre les num<75>ros des lignes<65>?</strong> </a> <p>
|
2002-12-09 04:39:15 +01:00
|
|
|
|
On veut chercher toutes les occurences des mots <20>terre<72> et <20>ciel<65> dans les
|
|
|
|
|
deux premiers chapitres de la premi<6D>re partie de <em>Germinal</em>, avec les
|
|
|
|
|
num<EFBFBD>ros des lignes. On propose deux solutions, la premi<6D>re utilisant les
|
|
|
|
|
ressources de la syntaxe de <code>grep</code>, la seconde utilisant l'option
|
|
|
|
|
<code>-f</code> avec un fichier.</p>
|
|
|
|
|
|
|
|
|
|
<ol>
|
|
|
|
|
|
2007-07-17 12:01:59 +02:00
|
|
|
|
<li> <strong>Syntaxe de <code>grep</code></strong><3E>: La structure
|
2002-12-09 04:39:15 +01:00
|
|
|
|
<code>\(mot1\|mot2\)</code> permet de chercher plusieurs mots. Ici, on tape la
|
2007-07-17 12:01:59 +02:00
|
|
|
|
ligne suivante<74>:
|
2002-12-09 04:39:15 +01:00
|
|
|
|
|
|
|
|
|
<pre>
|
|
|
|
|
grep '\(ciel\|terre\)' <em>fichier</em>
|
|
|
|
|
</pre>
|
|
|
|
|
|
|
|
|
|
<p>
|
|
|
|
|
On met des apostrophes de part et d'autre de l'expression pour la prot<6F>ger
|
|
|
|
|
contre le shell, c'est-<2D>-dire pour que le shell ne cherche pas <20> interpr<70>ter
|
|
|
|
|
l'expression.
|
|
|
|
|
</p></li>
|
|
|
|
|
|
2007-07-17 12:01:59 +02:00
|
|
|
|
<li> <strong>Option <20><code>-f</code> <em>fichier</em><3E></strong><3E>: dans un
|
2002-12-09 04:39:15 +01:00
|
|
|
|
fichier quelconque, que nous appellerons <code>liste</code>, on indique les
|
2007-07-17 12:01:59 +02:00
|
|
|
|
mots que l'on recherche<68>: <20>ciel<65> et <20>terre<72>. Chaque ligne correspond <20> un
|
2002-12-09 04:39:15 +01:00
|
|
|
|
mot recherch<63>. Il ne faut donc pas mettre de ligne comme
|
|
|
|
|
|
|
|
|
|
<pre>
|
|
|
|
|
terre ciel
|
|
|
|
|
</pre>
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
<p class="continue">
|
|
|
|
|
car le programme chercherait la cha<68>ne de caract<63>res <20>terre ciel<65>, qui est
|
|
|
|
|
assez improbable en fran<61>ais. Il ne faut pas non plus laisser de ligne
|
2007-07-17 12:01:59 +02:00
|
|
|
|
blanche<EFBFBD>: le programme afficherait l'ensemble du texte.
|
2002-12-09 04:39:15 +01:00
|
|
|
|
</p>
|
|
|
|
|
</li>
|
|
|
|
|
</ol>
|
|
|
|
|
|
|
|
|
|
<p>
|
|
|
|
|
Quelle que soit la solution retenue, on veut ensuite afficher le num<75>ro des
|
|
|
|
|
lignes (option <code>-n</code>); d'autre part, pour que la recherche soit
|
|
|
|
|
exhaustive, il vaut mieux que <code>grep</code> ne fasse pas de diff<66>rence
|
|
|
|
|
entre les majuscules et les minuscules, avec l'option <code>-i</code>
|
|
|
|
|
(<em>ignore case</em>, ignorer la casse des caract<63>res). Il faut aussi d<>cider
|
|
|
|
|
si on cherche les mots tels quels, sans leurs variantes (comme <20>terre<72> au
|
|
|
|
|
pluriel), ou si on accepte ces variantes. Si on ne veut que le mot sans ses
|
|
|
|
|
d<EFBFBD>riv<EFBFBD>s, on utilise l'option <code>-w</code>.
|
|
|
|
|
</p>
|
|
|
|
|
|
|
|
|
|
<p>
|
|
|
|
|
Pour d<>signer les deux fichiers o<> faire la recherche, on peut les <20>crire
|
2007-07-17 12:01:59 +02:00
|
|
|
|
litt<EFBFBD>ralement<EFBFBD>:
|
2002-12-09 04:39:15 +01:00
|
|
|
|
</p>
|
|
|
|
|
|
|
|
|
|
<pre>
|
|
|
|
|
zola1.txt zola2.txt
|
|
|
|
|
</pre>
|
|
|
|
|
<p class="continue">
|
2007-07-17 12:01:59 +02:00
|
|
|
|
ou, mieux, utiliser les joker du shell<6C>:
|
2002-12-09 04:39:15 +01:00
|
|
|
|
</p>
|
|
|
|
|
<pre>
|
|
|
|
|
zola[12].txt
|
|
|
|
|
</pre>
|
|
|
|
|
|
|
|
|
|
<p><code>[12]</code> signifie <20>le caract<63>re 1 ou le caract<63>re 2<>.</p>
|
|
|
|
|
|
|
|
|
|
<p>
|
2007-07-17 12:01:59 +02:00
|
|
|
|
<strong>Finalement, on peut taper, au choix</strong><3E>: </p>
|
2002-12-09 04:39:15 +01:00
|
|
|
|
<pre>
|
|
|
|
|
grep -inw -f liste zola1.txt zola2.txt
|
|
|
|
|
grep -inw -f liste zola[12].txt
|
|
|
|
|
grep -inw '\(ciel\|terre\)' zola1.txt zola2.txt
|
|
|
|
|
grep -inw '\(ciel\|terre\)' zola[12].txt
|
|
|
|
|
</pre>
|
|
|
|
|
|
|
|
|
|
<p>
|
2007-07-17 12:01:59 +02:00
|
|
|
|
Et on obtient<6E>:
|
2002-12-09 04:39:15 +01:00
|
|
|
|
</p>
|
|
|
|
|
|
|
|
|
|
<pre>
|
|
|
|
|
zola1.txt:13:ciel, le pav<61> se d<>roulait avec la rectitude d'une jet<65>e, au
|
|
|
|
|
milieu de
|
|
|
|
|
zola1.txt:36:br<62>laient si haut dans le ciel mort, pareils <20> des lunes fumeuses.
|
|
|
|
|
Mais, au
|
|
|
|
|
zola1.txt:50:besogne. Les ouvriers de la coupe <20> terre avaient d<> travailler
|
|
|
|
|
tar d, on
|
|
|
|
|
zola1.txt:124:terre, lorsqu'un acc<63>s de toux annon<6F>a le retour du charretier.
|
|
|
|
|
Le ntement,
|
|
|
|
|
zola1.txt:191:bleues en plein ciel, comme des torches g<>antes. C'<27>tait d'une
|
|
|
|
|
tristesse
|
|
|
|
|
zola1.txt:207: Le manoeuvre, apr<70>s avoir vid<69> les berlines, s'<27>tait assis <20>
|
|
|
|
|
terre,
|
|
|
|
|
zola1.txt:222:fois avec tout le poil roussi, une autre avec de la terre jusque
|
|
|
|
|
dans le
|
|
|
|
|
|
|
|
|
|
(...)
|
|
|
|
|
</pre>
|
|
|
|
|
|
|
|
|
|
<p>
|
|
|
|
|
Le r<>sultat est un peu diff<66>rent quand on n'utilise pas l'option
|
|
|
|
|
<code>-w</code>.</p>
|
|
|
|
|
</li>
|
|
|
|
|
|
|
|
|
|
</ol>
|
|
|
|
|
|
|
|
|
|
<h2><a name="regexp">Introduction aux expressions r<>guli<6C>res</a></h2>
|
|
|
|
|
|
|
|
|
|
<p>
|
|
|
|
|
<code>grep</code> recherche des cha<68>nes de caract<63>res, qui peuvent <20>tre un mot
|
|
|
|
|
complet (<28>terre<72>), une suite de lettres (<28>tre<72>), ou une expression r<>guli<6C>re.
|
|
|
|
|
Les expressions r<>guli<6C>res sont des formules qui repr<70>sentent des cha<68>nes de
|
|
|
|
|
caract<EFBFBD>res. On cherche alors non pas un mot pr<70>cis, mais des suites de
|
|
|
|
|
caract<EFBFBD>res correspondant aux crit<69>res demand<6E>s. Elles sont d'un usage fr<66>quent
|
|
|
|
|
avec <code>grep</code> bien s<>r, mais aussi avec des commandes comme
|
|
|
|
|
<code>less</code>, ou encore au sein d'un <20>diteur.
|
|
|
|
|
</p>
|
|
|
|
|
|
|
|
|
|
<p>
|
|
|
|
|
<EFBFBD>Expressions r<>guli<6C>res<65> (<em>Regular expressions</em> en anglais) se
|
|
|
|
|
traduisent en bon fran<61>ais par <20>expressions rationnelles<65>, mais l'usage est de
|
|
|
|
|
dire <20>r<EFBFBD>guli<6C>res<65>.
|
|
|
|
|
</p>
|
|
|
|
|
|
|
|
|
|
<p>
|
|
|
|
|
Ces exercices n'entendent pas remplacer un cours sur les expressions
|
|
|
|
|
r<EFBFBD>guli<EFBFBD>res, ni faire le tour de leurs possibilit<69>s.
|
|
|
|
|
</p>
|
|
|
|
|
|
|
|
|
|
<ol>
|
|
|
|
|
<li><a name="reg1"> <strong>Chercher toutes les lignes commen<65>ant par <20>a<EFBFBD> ou
|
|
|
|
|
<EFBFBD>A<EFBFBD></strong> </a>. <p>
|
|
|
|
|
Il faut indiquer que l'on veut le d<>but de la ligne, avec le chapeau
|
|
|
|
|
(<em>caret</em> en anglais). Ensuite, on veut pr<70>ciser que la ligne commence
|
2007-07-17 12:01:59 +02:00
|
|
|
|
par un <20>a<EFBFBD> minuscule ou majuscule. Il y a deux fa<66>ons de le faire<72>:
|
2002-12-09 04:39:15 +01:00
|
|
|
|
</p>
|
|
|
|
|
|
|
|
|
|
<ul>
|
|
|
|
|
|
|
|
|
|
<li> Utiliser l'option <code>-i</code> qui fait ignorer la diff<66>rence entre
|
|
|
|
|
les majuscules et le minuscules.</li>
|
|
|
|
|
|
|
|
|
|
<li> Dire que l'on cherche un <20>a<EFBFBD> ou un <20>A<EFBFBD>. C'est <20> cela que servent les
|
2007-07-17 12:01:59 +02:00
|
|
|
|
crochets<EFBFBD>: <code>[abc]</code> signifie <20>a ou b ou c<>. Ici, ce sera
|
2002-12-09 04:39:15 +01:00
|
|
|
|
<code>[aA]</code>.</li>
|
|
|
|
|
|
|
|
|
|
</ul>
|
|
|
|
|
|
|
|
|
|
<p>
|
|
|
|
|
Enfin, il faut prot<6F>ger les signes contre le shell, pour qu'il ne les
|
2007-07-17 12:01:59 +02:00
|
|
|
|
interpr<EFBFBD>te pas; on met donc l'expression entre apostrophes. Remarque<75>:
|
2002-12-09 04:39:15 +01:00
|
|
|
|
la protection des expressions r<>guli<6C>res contre le shell est une question
|
|
|
|
|
complexe....
|
|
|
|
|
</p>
|
|
|
|
|
|
|
|
|
|
<p>
|
2007-07-17 12:01:59 +02:00
|
|
|
|
Il faut donc <20>crire<72>:
|
2002-12-09 04:39:15 +01:00
|
|
|
|
</p>
|
|
|
|
|
|
|
|
|
|
<pre>
|
|
|
|
|
grep -i '^a' fichier
|
|
|
|
|
</pre>
|
|
|
|
|
|
|
|
|
|
<p class="continue">
|
|
|
|
|
ou
|
|
|
|
|
</p>
|
|
|
|
|
|
|
|
|
|
<pre>
|
|
|
|
|
grep '^[aA]' fichier
|
|
|
|
|
</pre>
|
|
|
|
|
</li>
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
<li><a name="reg2"> <strong>Chercher toutes les lignes finissant par
|
|
|
|
|
<EFBFBD>rs<EFBFBD></strong> </a> <p>
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
C'est le dollar (<code>$</code>) qui repr<70>sente la fin de la ligne. Il faut
|
2007-07-17 12:01:59 +02:00
|
|
|
|
donc <20>crire<72>: </p>
|
2002-12-09 04:39:15 +01:00
|
|
|
|
|
|
|
|
|
<pre>
|
|
|
|
|
grep 'rs$' fichier
|
|
|
|
|
</pre></li>
|
|
|
|
|
|
|
|
|
|
<li><a name="reg3"> <strong>Chercher toutes les lignes contenant au moins un
|
|
|
|
|
chiffre</strong> </a> <p>
|
|
|
|
|
|
|
|
|
|
|
2007-07-17 12:01:59 +02:00
|
|
|
|
Pour d<>signer un chiffre, on peut en indiquer une liste entre crochets<74>:
|
2002-12-09 04:39:15 +01:00
|
|
|
|
<code>[0123456789]</code>. Il est plus simple d'utiliser une classe de
|
|
|
|
|
caract<EFBFBD>res : <code>[0-9]</code> qui d<>signe, comme la solution pr<70>c<EFBFBD>dente,
|
|
|
|
|
n'importe quel chiffre de z<>ro <20> neuf.
|
|
|
|
|
</p>
|
|
|
|
|
<p>
|
2007-07-17 12:01:59 +02:00
|
|
|
|
Il faut donc taper<65>: </p>
|
2002-12-09 04:39:15 +01:00
|
|
|
|
<pre>
|
|
|
|
|
grep '[0-9]' fichier
|
|
|
|
|
</pre>
|
|
|
|
|
</li>
|
|
|
|
|
|
|
|
|
|
<li><a name="reg4"> <strong>Chercher toutes les lignes commen<65>ant par une
|
|
|
|
|
majuscule</strong> </a> <p>
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Comme on l'a vu, c'est le chapeau qui indique le d<>but de la ligne. Pour
|
|
|
|
|
indiquer que l'on cherche une majuscule, on peut soit en donner une liste
|
|
|
|
|
(<code>[ABCDEFGHIJKLMNOPQRSTUVWXYZ]</code>), soit utiliser une classe de
|
2007-07-17 12:01:59 +02:00
|
|
|
|
caract<EFBFBD>res<EFBFBD>: <code>[A-Z]</code>, la seconde solution <20>tant, de loin,
|
2002-12-09 04:39:15 +01:00
|
|
|
|
pr<EFBFBD>f<EFBFBD>rable...
|
|
|
|
|
</p>
|
|
|
|
|
<p>
|
2007-07-17 12:01:59 +02:00
|
|
|
|
Il faut donc taper<65>:
|
2002-12-09 04:39:15 +01:00
|
|
|
|
</p>
|
|
|
|
|
<pre>
|
|
|
|
|
grep '^[A-Z]' fichier
|
|
|
|
|
</pre>
|
|
|
|
|
</li>
|
|
|
|
|
|
|
|
|
|
<li><a name="reg5"> <strong>Chercher toutes les lignes commen<65>ant par <20>B<EFBFBD>,
|
|
|
|
|
<EFBFBD>E<EFBFBD> ou <20>Q<EFBFBD></strong> </a> <p>
|
|
|
|
|
|
|
|
|
|
|
2007-07-17 12:01:59 +02:00
|
|
|
|
Il faut indiquer entre crochets les trois lettres recherch<63>es<65>:
|
2002-12-09 04:39:15 +01:00
|
|
|
|
</p>
|
|
|
|
|
|
|
|
|
|
<pre>
|
|
|
|
|
grep '^[BEQ]' fichier
|
|
|
|
|
</pre>
|
|
|
|
|
</li>
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
<li><a name="reg6"> <strong>Chercher toutes les lignes finissant par un point
|
|
|
|
|
d'exclamation</strong> </a> <p>
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Le point d'exclamation n'a pas de signification particuli<6C>re avec
|
2007-07-17 12:01:59 +02:00
|
|
|
|
<code>grep</code>, on peut donc le mettre tel quel<65>:
|
2002-12-09 04:39:15 +01:00
|
|
|
|
</p>
|
|
|
|
|
|
|
|
|
|
<pre>
|
|
|
|
|
grep '!$' fichier
|
|
|
|
|
</pre>
|
|
|
|
|
</li>
|
|
|
|
|
|
|
|
|
|
<li><a name="reg7"> <strong>Chercher toutes les lignes ne finissant pas par
|
|
|
|
|
un signe de ponctuation (point, virgule, point-virgule, deux-points, point
|
|
|
|
|
d'interrogation, point d'exclamation)</strong> </a><p>
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Il faut donner une liste de caract<63>res, que l'on ne veut pas voir figurer; la
|
|
|
|
|
liste sera entre crochets, comme on l'a d<>j<EFBFBD> vu, et c'est le chapeau qui
|
|
|
|
|
signifiera, dans ce contexte, <20>sauf<75>. Par exemple, si on cherche tous les <20>a<EFBFBD>,
|
2007-07-17 12:01:59 +02:00
|
|
|
|
sauf ceux suivi de <20>b<EFBFBD>, <20>c<EFBFBD> ou <20>t<EFBFBD>, on <20>crit<69>:
|
2002-12-09 04:39:15 +01:00
|
|
|
|
</p>
|
|
|
|
|
|
|
|
|
|
<pre>
|
|
|
|
|
grep 'a[^bct]'
|
|
|
|
|
</pre>
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
<p>
|
|
|
|
|
Il y a une seconde difficult<6C>, qui vient de ce que certains caract<63>res sont
|
|
|
|
|
sp<EFBFBD>ciaux avec <code>grep</code>. Vous vous doutez que le chapeau est sp<73>cial
|
|
|
|
|
quand il est plac<61> au d<>but de l'expression, et que le dollar l'est quand il
|
2007-07-17 12:01:59 +02:00
|
|
|
|
est plac<61> en fin d'expression. Dans notre cas<61>:
|
2002-12-09 04:39:15 +01:00
|
|
|
|
</p>
|
|
|
|
|
<ul>
|
|
|
|
|
|
|
|
|
|
<li> Le point d<>signe n'importe quel caract<63>re.</li>
|
|
|
|
|
|
|
|
|
|
<li> Le point d'interrogation signifie <20>le caract<63>re qui pr<70>c<EFBFBD>de appara<72>t 0 ou
|
|
|
|
|
1 fois<69>. Avec <code>egrep</code>, il fonctionne tout seul, avec
|
|
|
|
|
<code>grep</code>, il faut le faire pr<70>c<EFBFBD>der d'un backslash pour qu'il
|
|
|
|
|
fonctionne; par exemple (avec <code>grep</code>), pour chercher <20>charbon<6F> ou
|
2007-07-17 12:01:59 +02:00
|
|
|
|
<EFBFBD>vagabond<EFBFBD>, on <20>crit<69>:
|
2002-12-09 04:39:15 +01:00
|
|
|
|
<pre>
|
|
|
|
|
grep 'ar?bo' fichier
|
|
|
|
|
</pre>
|
|
|
|
|
|
|
|
|
|
<p class="continue">
|
|
|
|
|
(chercher la suite de lettre <20>abo<62> avec un <20>r<EFBFBD> facultatif entre le <20>a<EFBFBD> et le
|
|
|
|
|
<EFBFBD>b<EFBFBD>).</p>
|
|
|
|
|
</li>
|
|
|
|
|
|
|
|
|
|
</ul>
|
|
|
|
|
|
|
|
|
|
<p>
|
|
|
|
|
Pour que <code>grep</code> interpr<70>te litt<74>ralement ces caract<63>res, et ne les
|
|
|
|
|
consid<EFBFBD>re plus comme sp<73>ciaux, il faut les faire pr<70>c<EFBFBD>der d'un backslash
|
|
|
|
|
(<code>\</code>). Si par exemple vous cherchez toutes les lignes qui se
|
2007-07-17 12:01:59 +02:00
|
|
|
|
terminent par un point, il faut taper<65>:
|
2002-12-09 04:39:15 +01:00
|
|
|
|
</p>
|
|
|
|
|
|
|
|
|
|
<pre>
|
|
|
|
|
grep '\.$' fichier
|
|
|
|
|
</pre>
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
<p>
|
|
|
|
|
Dans notre cas cependant, ces caract<63>res sont prot<6F>g<EFBFBD>s par les crochets. On
|
2007-07-17 12:01:59 +02:00
|
|
|
|
peut donc <20>crire<72>:
|
2002-12-09 04:39:15 +01:00
|
|
|
|
</p>
|
|
|
|
|
|
|
|
|
|
<pre>
|
|
|
|
|
grep '[^.,;:?!]$' fichier
|
|
|
|
|
</pre>
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
<p>
|
|
|
|
|
On peut aussi utiliser l'option <code>-v</code>, qui prend toutes les lignes
|
2007-07-17 12:01:59 +02:00
|
|
|
|
o<EFBFBD> ne figure pas une cha<68>ne de caract<63>res donn<6E>e; dans ce cas, on tape<70>:
|
2002-12-09 04:39:15 +01:00
|
|
|
|
</p>
|
|
|
|
|
|
|
|
|
|
<pre>
|
|
|
|
|
grep -v '[.,;:?!]$' fichier
|
|
|
|
|
</pre>
|
|
|
|
|
</li>
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
<li><a name="reg8"> <strong>Comment chercher tous les mots contenant un <20>r<EFBFBD>
|
2007-07-17 12:01:59 +02:00
|
|
|
|
pr<EFBFBD>c<EFBFBD>d<EFBFBD> de n'importe quelle lettre majuscule ou minuscule<6C>? </strong>
|
2002-12-09 04:39:15 +01:00
|
|
|
|
</a> <p>
|
|
|
|
|
|
|
|
|
|
On cherche une cha<68>ne de caract<63>res qui soit indiff<66>remment au d<>but ou au
|
|
|
|
|
milieu d'un mot. N'importe quelle lettre, ce sont les classes de caract<63>res
|
|
|
|
|
<code>[a-zA-Z]</code> ou <code>[:alpha:]</code>, qui sont <20>quivalentes.
|
|
|
|
|
</p>
|
|
|
|
|
|
|
|
|
|
<p>
|
|
|
|
|
Il y a une petite subtilit<69> avec l'emploi de classes du second type; elles
|
|
|
|
|
d<EFBFBD>signent un groupe de caract<63>res, et il faut mettre une seconde paire de
|
|
|
|
|
crochets pour dire <20>n'importe quel caract<63>re de cette classe pr<70>d<EFBFBD>finie<69>.
|
2007-07-17 12:01:59 +02:00
|
|
|
|
On tape donc au choix<69>:
|
2002-12-09 04:39:15 +01:00
|
|
|
|
</p>
|
|
|
|
|
|
|
|
|
|
<pre>
|
|
|
|
|
grep '[a-zA-Z]r' fichier'
|
|
|
|
|
</pre>
|
|
|
|
|
<p class="continue">
|
|
|
|
|
ou
|
|
|
|
|
</p>
|
|
|
|
|
<pre>
|
|
|
|
|
grep '[[:alpha:]]r' fichier'
|
|
|
|
|
</pre>
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
<p>
|
|
|
|
|
Attention, dans ces listes ne sont pas compris les caract<63>res accentu<74>s...
|
|
|
|
|
</p></li>
|
|
|
|
|
|
|
|
|
|
<li><a name="reg9"> <strong>Chercher tous les mots dont la seconde lettre est
|
|
|
|
|
un <20>r<EFBFBD></strong> </a>.
|
|
|
|
|
|
|
|
|
|
<p>
|
|
|
|
|
C'est le symbole <code>\<</code> qui d<>signe un d<>but de mot. La premi<6D>re
|
2007-07-17 12:01:59 +02:00
|
|
|
|
lettre du mot est indiff<66>rente, la seconde est un <20>r<EFBFBD>. On <20>crit donc<6E>:
|
2002-12-09 04:39:15 +01:00
|
|
|
|
</p>
|
|
|
|
|
<pre>
|
|
|
|
|
grep '\<.r' fichier
|
|
|
|
|
</pre>
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
<p>
|
|
|
|
|
Il y a cependant un probl<62>me avec les caract<63>res accentu<74>s, que
|
|
|
|
|
<code>grep</code> consid<69>re comme des blancs. Dans ce cas, il vaut mieux
|
2007-07-17 12:01:59 +02:00
|
|
|
|
proc<EFBFBD>der autrement<6E>: un mot est pr<70>c<EFBFBD>d<EFBFBD> d'un d<>but de ligne, ou d'un
|
2002-12-09 04:39:15 +01:00
|
|
|
|
blanc ou d'une tabulation. Un d<>but de ligne, c'est le chapeau, un blanc ou
|
|
|
|
|
une tabulation, c'est la classe de caract<63>res <code>[:space:]</code>.
|
|
|
|
|
</p>
|
|
|
|
|
<p>
|
|
|
|
|
On va se servir du pipe (<code>|</code>) qui signifie <20>ou<6F>. Avec
|
|
|
|
|
<code>grep</code>, il faut backslasher le pipe, avec <code>egrep</code> ce
|
2007-07-17 12:01:59 +02:00
|
|
|
|
n'est pas n<>cessaire. On <20>crit donc (avec <code>grep</code>)<29>:
|
2002-12-09 04:39:15 +01:00
|
|
|
|
</p>
|
|
|
|
|
|
|
|
|
|
<pre>
|
|
|
|
|
grep '^.r|[[:space:]].r' fichier
|
|
|
|
|
</pre>
|
|
|
|
|
|
|
|
|
|
<p>
|
|
|
|
|
Ce n'est quand m<>me pas si simple; les mots peuvent <20>tre pr<70>c<EFBFBD>d<EFBFBD>s d'un tiret
|
|
|
|
|
(mots compos<6F>s), d'une apostrophe, de guillemets divers (<code>``</code>,
|
|
|
|
|
<code>"</code>, <code><3E></code>, <code><<</code>), et, si l'auteur du
|
|
|
|
|
texte n'est pas respectueux des r<>gles de typographie, d'une ponctuation. Il y
|
|
|
|
|
a donc bien des cas <20> envisager...
|
|
|
|
|
</p>
|
|
|
|
|
</li>
|
|
|
|
|
</ol>
|
|
|
|
|
|
|
|
|
|
<div class="metainformation">
|
2007-07-17 12:01:59 +02:00
|
|
|
|
Auteur<75>: <20>milia Robin, Jo<4A>l Riou. Derni<6E>re modification le <date value="$Date: 2007-07-17 10:03:37 $"/>.
|
2002-12-09 04:39:15 +01:00
|
|
|
|
</div>
|
|
|
|
|
|
|
|
|
|
</body>
|
|
|
|
|
</html>
|
|
|
|
|
|