tuteurs.ens.fr/faq/utf8.tml

576 lines
27 KiB
Text
Raw Normal View History

<?xml version="1.0" encoding="UTF-8"?>
2005-05-29 01:33:53 +02:00
<!DOCTYPE html
PUBLIC "-//ENS/Tuteurs//DTD TML 1//EN"
"tuteurs://DTD/tml.dtd">
<html>
<head>
<title>UTF-8</title>
</head>
<body>
<h1>Foire Aux Questions des Tuteurs : Unicode, UTF-8</h1>
2005-05-29 01:33:53 +02:00
<p>Cette Foire Aux Questions (<a
href="&url.tuteurs;jargon.html#FAQ">FAQ</a>) rassemble entre autres des
questions fréquemment posées dans le courrier électronique adressé aux
tuteurs concernant Unicode, qui est un standard qui se répand de plus en
2005-05-29 01:33:53 +02:00
plus, notamment dans les
distributions <a href="&url.tuteurs;jargon.html#linux">Linux</a> grand
public (et aussi sous Windows).</p>
<h2>Généralités et théorie</h2>
2005-05-29 01:33:53 +02:00
<h3><a name="unicode">Qu'est-ce que le Standard Unicode ?</a></h3>
2005-05-29 01:33:53 +02:00
<p>Le <a href="http://www.unicode.org/">Standard Unicode</a> est produit
par une organisation à but non lucratif (le Consortium Unicode) ayant
pour objectif d'attribuer un numéro à tout caractère utilisé dans une langue
humaine. Cette entreprise vise à une certaine universalité. Les alphabets
de <b>beaucoup</b> de langues sont déjà inscrits dans ce standard. On y trouve
évidemment les alphabets latins, grecs et cyrilliques (avec certaines de
leurs variantes, par exemple, un caractère comme « &oelig; » y figure,
bien qu'il ne soit pas utilisé dans la plupart des autres langues
européennes utilisant l'alphabet latin). Beaucoup de langues parlées en
Asie figurent aussi dans le standard : des dizaines de miliers de
caractères chinois, japonais ou coréens sont définis. Le standard
2005-05-29 01:33:53 +02:00
contient bien d'autres alphabets, la consultation des tableaux de
caractères (dans la version imprimée du standard ou <a
2005-05-29 01:33:53 +02:00
href="http://www.unicode.org/charts/">sur le site officiel</a>) est une
véritable source d'émerveillement... </p>
<h3><a name="caractere">Qu'est-ce qu'un caractère Unicode ?</a></h3>
<p>Un caractère Unicode est un caractère défini dans le Standard Unicode.
On y fait souvent référence par son numéro écrit en hexadécimal précédé
de «U+». Par exemple, la lettre latine « a » correspond à U+0061, la lettre
cyrillique « &#x042f; » correspond à U+042F et le "DEVANAGARI OM"
« &#x0950; » correspond à U+0950. Certains de ces caractères ne
s'affichent peut-être pas correctement sur votre écran, cela dépend de
plusieurs paramètres, nous reviendrons sur ce point dans les questions
suivantes ; il faut cependant garder une chose à l'esprit, le Standard
Unicode définit des listes de caractères, donne un nom à chaque
caractère (pour « a », c'est "LATIN SMALL LETTER A"), mais en aucun
cas, le glyphe devant représenter chaque caractère n'est normalisé, en
effet, plusieurs fontes de caractères peuvent être utilisées.</p>
<h3><a name="utf8">Qu'est-ce que « UTF-8 » ?</a></h3>
<p>"UTF" est formé des initiales de "Unicode Transformation Format".
Les ordinateurs stoquent et échangent leurs données le plus souvent sous
forme de suite d'octets, un octet étant constitué 8 bits. Un octet peut
donc se être représenté comme un nombre entier compris (au sens large)
2005-05-29 01:33:53 +02:00
entre 0 et 255. Si on veut stoquer sur un support informatique
un texte constitué de caractères Unicode, il faut choisir un
procédé transformant une suite de caractères Unicode en une suite
d'octets et réciproquement avoir un procédé pour retrouver la suite de
caractères à partir d'une suite d'octets bien formée, ces données
2005-05-29 01:33:53 +02:00
constituent ce que l'on appelle un <a
href="&url.tuteurs;theorie/encodages.html">encodage</a>.
</p>
<p>L'encodage le plus pratique pour échanger des textes constitués de
caractères Unicode est UTF-8. Il associe à tout numéro Unicode
une suite d'un ou plusieurs octets (jusqu'à quatre octets pour un seul
caractère). Cet encodage est décrit dans la <a
2005-05-29 01:33:53 +02:00
href="http://www.faqs.org/rfcs/rfc2279.html">RFC 2279</a>.
Une des propriétés importantes de cet encodage est que les caractères
dont les numéros sont compris entre 32 et 126 possèdent la même
représentation en UTF-8 et dans l'encodage ASCII. L'encodage UTF-8 est
donc compatible avec ASCII, dans la mesure où il n'y a rien à faire pour
convertir un fichier encodé en ASCII vers UTF-8. Réciproquement, si un
octet représentant un nombre compris entre 32 et 126 apparaît dans un
fichier encodé en UTF-8, alors c'est forcément pour encoder le caractère
ASCII du même numéro.</p>
2005-05-29 01:33:53 +02:00
<h3>Quels types de logiciels gèrent Unicode ?</h3>
2005-05-29 01:33:53 +02:00
<p>
La question de savoir si un logiciel gère bien Unicode n'a de sens que
si celui-ci manipule du texte. Les logiciels les plus concernés sont
notamment les <a href="#editeurs">éditeurs de texte</a>,
2005-05-29 01:33:53 +02:00
les logiciels de traitement de texte,
les logiciels de <a href="#courrier">courrier électronique</a>
2005-05-29 01:33:53 +02:00
et les <a href="#test-navigateur">navigateurs Web</a>.
</p>
<h2><a name="terminaux">Terminaux Unicode</a></h2>
<h3>Qu'est-ce qu'un terminal Unicode ?</h3>
2005-05-29 01:33:53 +02:00
<p>Un terminal (ou un émulateur de terminal) consiste en une interface
2005-05-29 01:33:53 +02:00
qui permet de saisir et d'afficher du texte, divers programmes peuvent
« tourner » à l'intérieur de ce terminal : un interpréteur
de commandes (<em>shell</em>), un logiciel pour gérer ses mails, un
éditeur de texte, etc... Le terminal et les programmes qui tournent à
l'intérieur d'icelui doivent se mettrent d'accord d'une manière ou d'une
2005-05-29 01:33:53 +02:00
autre pour savoir dans quel encodage le texte doit communiquer entre eux,
et ce de façon cohérente avec les caractères effectivement
affichés à l'écran et le texte saisi par l'utilisatuer.</p>
2005-05-29 01:33:53 +02:00
<p> Un terminal Unicode (ou UTF-8) est un terminal où cet encodage est
UTF-8, par opposition aux terminaux « ordinaires » où l'encodage
est mono-octet (c'est-à-dire ne permet de représenter qu'un peu moins de
256 caractères différents), le plus souvent <code>latin-1</code> en
2005-05-29 01:33:53 +02:00
France. </p>
<p>
Dans un terminal Unicode, on peut ainsi afficher beaucoup plus de
caractères différents que dans un terminal <code>latin-1</code>. Cela
reste néanmoins une interface en mode texte, on ne pourra ainsi pas
afficher correctement du texte dans des langues dont l'écriture utilise
des systèmes de ligatures complexes ; pour le reste, cela
fonctionne très bien. Il y a quelques subtilités, les caractères
chinois/japonais/coréens occupent ainsi deux cases contiguës au lieu
2005-05-29 01:33:53 +02:00
d'une seule.
</p>
<h3><a name="uxterm">Comment lancer un terminal Unicode ?</a></h3>
2005-05-29 01:33:53 +02:00
<p>Il existe beaucoup d'émulateurs de terminaux sous Unix, certains
savent gérer Unicode, d'autres non. Le programme
de référence <code>xterm</code> sait faire, pour le lancer de façon à
2005-05-29 01:33:53 +02:00
obtenir un terminal Unicode, le plus commode est d'utiliser la commande
<code>uxterm</code> qui est en général un script qui lance
2005-05-29 01:33:53 +02:00
<code>xterm</code> avec les bonnes options.
</p>
<p>Sous Windows, notons que le programme <a
href="http://www.chiark.greenend.org.uk/~sgtatham/putty/">PuTTY</a> qui
est à la fois un client SSH et un émulateur de terminal sait gérer
2005-05-29 01:33:53 +02:00
Unicode, il suffit de choisir UTF-8 comme encodage.
</p>
<div class="ens">
Dans les <a href="&url.config;">configs conscrits</a> récentes, à partir
du Menu, on peut cliquer sur « Fenêtres » puis sur
« Terminal Unicode ».
2005-05-29 01:33:53 +02:00
</div>
<h3><a name="test">Comment savoir si je suis dans un terminal
Unicode ?</a></h3>
2005-05-29 01:33:53 +02:00
<p>
La manière la plus rapide est probablement de taper la suite de
2005-05-29 01:33:53 +02:00
touches
«xxd<code>&lt;Enter&gt;&lt;Compose&gt;&lt;apostrophe&gt;</code>e<code>&lt;Enter&gt;&lt;Control-D&gt;</code>».
Autrement dit, on lance le programme <code>xxd</code> qui va servir à
afficher la représentation en hexadécimal du texte que l'on va
saisir : on saisit un e accent aigu avec la touche compose,
2005-05-29 01:33:53 +02:00
on valide et on ferme avec <code>&lt;Control-D&gt;</code>. Si on se trouve dans
un terminal <code>latin-1</code>, on va voir :
2005-05-29 01:33:53 +02:00
</p>
<pre><span class="prompt">clipper ~ $</span> xxd
é
2005-05-29 01:33:53 +02:00
0000000: e90a ..
</pre>
<p class="continue">tandis que dans un terminal Unicode, on
verra :</p>
2005-05-29 01:33:53 +02:00
<pre>
<span class="prompt">clipper ~ $</span> xxd
é
2005-05-29 01:33:53 +02:00
0000000: c3a9 0a ...
</pre>
<p class="continue">Le <code>0a</code> que l'on voit dans les deux
résultats représente le caractère <code>U+00A0</code> LINE FEED (LF) qui
s'encode de la même manière en <code>latin-1</code> et en UTF-8. La
différence porte donc sur l'encodage du caractère <code>U+00E9</code> LATIN
2005-05-29 01:33:53 +02:00
SMALL LETTER E WITH ACUTE (le e accent aigu), en
<code>latin-1</code>, on le
représente par un seul octet de valeur hexadécimale <code>e9</code>
tandis qu'en UTF-8, on a deux octets : <code>c3</code> puis
2005-05-29 01:33:53 +02:00
<code>a9</code>.
</p>
<p>
Une autre manière de le déterminer consiste à utiliser la sortie du
terminal plutôt que son entrée. On va envoyer sur la sortie la
représentation en UTF-8 du e accent aigu, si on voit effectivement un e
accent aigu, on sera dans un terminal UTF-8, si on voit deux caractères
qui n'ont rien à voir (en l'occurence «Ã©»), cela voudra probablement
2005-05-29 01:33:53 +02:00
dire que l'on est dans un terminal <code>latin-1</code>.
Pour faire ce test, on peut
utiliser la commande suivante :
2005-05-29 01:33:53 +02:00
</p>
<pre><span class="prompt">clipper ~ $</span> printf '\xc3\xa9\n'
2005-05-29 01:33:53 +02:00
</pre>
<h3><a name="locales">Comment faire fonctionner des
programmes dans un terminal Unicode ?</a></h3>
2005-05-29 01:33:53 +02:00
<p>
La seule méthode vaguement standardisée pour spécifier aux programmes
dans quel encodage est encodé le terminal dans lequel ils fonctionnent
est donné par les <em>locales</em>. Pour connaître le réglage des
2005-05-29 01:33:53 +02:00
<em>locales</em> que les
programmes vont subir, on peut utiliser la commande <code>locale</code>
(qui existe au moins sous GNU/Linux et sous Solaris). Dans un terminal
Unicode, j'obtiens ceci :</p>
<pre><span class="prompt">clipper ~ $</span> locale
2005-05-29 01:33:53 +02:00
LANG=
LC_CTYPE=fr_FR.UTF-8
LC_NUMERIC="C"
LC_TIME="C"
LC_COLLATE="C"
LC_MONETARY="C"
LC_MESSAGES="C"
LC_ALL=
</pre>
<p class="continue">Ce qui est important ici, c'est ce qui figure en face
de <code>LC_CTYPE</code>. La valeur <code>fr_FR.UTF-8</code> signifie en gros
que j'utilise du français de France (et non du français de Suisse par
exemple) <em>encodé en UTF-8</em>. Si <code>LC_CTYPE</code> contenait
2005-05-29 01:33:53 +02:00
une valeur n'indiquant pas un encodage UTF-8, comme <code>C</code>,
<code>en_US</code> ou encore <code>fr_FR</code>, je pourrais changer
cette locale en tapant la commande suivante qui permet de modifier la
variable d'environnement <code>LC_CTYPE</code> :
2005-05-29 01:33:53 +02:00
</p>
<pre>
<span class="prompt">clipper ~ $</span> LC_CTYPE=fr_FR.UTF-8;export LC_CTYPE
2005-05-29 01:33:53 +02:00
</pre>
<p class="continue">La modification s'appliquera pour les applications
lancées par la suite dans ce terminal. La variable d'environnement
<code>LC_MESSAGES</code> peut également être utile, elle indique aux
2005-05-29 01:33:53 +02:00
programmes qui en sont conscients dans quelle langue on souhaite qu'ils
nous parlent. Par exemple, si on est dans un terminal Unicode et que
l'on a défini les variables d'environnement <code>LC_CTYPE</code> et
<code>LC_MESSAGES</code> à <code>fr_FR.UTF-8</code>,
les messages qu'affichera un logiciel de courrier électronique comme
2005-05-29 01:33:53 +02:00
<a
href="&url.tuteurs;internet/courrier/mail-mutt.html"><code>mutt</code></a>
seront en français.</p>
2005-05-29 01:33:53 +02:00
<h3><a name="ssh">Quand je me logue par <code>ssh</code>, les caractères
accentués s'affichent n'importe comment &#x203d;</a></h3>
2005-05-29 01:33:53 +02:00
<p>De plus en plus de distributions Linux ont par défaut des terminaux
2005-05-29 01:33:53 +02:00
Unicode.
Si on se logue sur une autre machine Unix, il faut y faire un
<a href="#locales">réglage de <em>locales</em></a> pour pouvoir utiliser
convenablement certains programmes. Il n'y a rien de prévu au niveau
de <code>ssh</code> (tant mieux, ça pourrait être pire que rien...) pour
définir sur la machine distante une locale cohérente avec l'encodage du
2005-05-29 01:33:53 +02:00
terminal dans lequel on travaille. Si ce n'est pas fait, les programmes
auront tendance à fonctionner comme dans un terminal <code>latin-1</code>,
d'où le n'importe quoi. En principe, on doit donc faire manuellement le
réglage de <em>locales</em> évoqué ci-dessus.
2005-05-29 01:33:53 +02:00
</p>
<div class="ens">
Dans les configs conscrits récentes (à partir de 2004), un script
d'initialisation tente à chaque login distant de procéder à une détection
de l'encodage du terminal, si ce programme détecte un terminal Unicode,
il définit la variable d'environnement <code>LC_CTYPE</code> à
<code>fr_FR.UTF-8</code> ce qui évite d'avoir à faire à chaque fois le
réglage de <em>locales</em> manuellement. Pour éviter toute ambiguité,
cette détection d'encodage ne concerne que les connexions <em>vers</em>
un ordinateur de l'École.
2005-05-29 01:33:53 +02:00
</div>
<h3><a name="luit">Comment lancer des programmes ne gérant pas Unicode
dans un terminal Unicode ?</a></h3>
2005-05-29 01:33:53 +02:00
<p>Certains logiciels ne gèrent pas bien du tout Unicode, il faut donc
les lancer dans un terminal encodé en <code>latin-1</code>. Mais si on
est en train de travailler dans un terminal Unicode, on a pas forcément
envie d'ouvrir une nouvelle fenêtre de terminal. Le programme
<code>luit</code> permet d'émuler un terminal <code>latin-1</code> à
l'intérieur d'un terminal Unicode. Si on est dans un terminal
Unicode, on peut ainsi utiliser la commande suivante :
2005-05-29 01:33:53 +02:00
</p>
<pre><span class="prompt">corvette ~ $</span> LC_CTYPE=fr_FR luit
2005-05-29 01:33:53 +02:00
</pre>
<p class="continue">Cela ouvre un nouveau <em>shell</em>. Les programmes
lancés « à l'intérieur d'icelui » se comporteront vis-à-vis de
l'utilisateur comme si celui-ci travaillait dans un terminal encodé en
2005-05-29 01:33:53 +02:00
<code>latin-1</code> (on peut faire le <a href="#test">test</a> pour
s'en assurer). On peut lancer par exemple <code>pine</code> (qui ne gère
2005-05-29 01:33:53 +02:00
pas Unicode) dans ce <code>luit</code>. Une fois que l'on en a fini avec
ces programmes ne gérant pas Unicode, on peut revenir au terminal Unicode
de départ en quittant le shell (<code>exit</code> ou
2005-05-29 01:33:53 +02:00
<code>&lt;Control-D&gt;</code>).
</p>
<h3><a name="courrier">Comment lire son courrier dans un terminal
Unicode ?</a></h3>
2005-05-29 01:33:53 +02:00
<p>
Le logiciel de courrier électronique <a
2005-05-29 01:33:53 +02:00
href="&url.tuteurs;internet/courrier/mail-mutt.html"><code>mutt</code></a>
fonctionne bien dans un terminal Unicode. Grâce à lui, on peut <a
2005-05-29 01:33:53 +02:00
href="&url.tuteurs;internet/courrier/international.html">lire ou
envoyer des messages dans des langues exotiques</a> ; <a
2005-05-29 01:33:53 +02:00
href="&url.tuteurs;logiciels/mozilla/mail.html">Mozilla
Mail</a> sait aussi faire, mais c'est en mode graphique.
</p>
<p>Le logiciel <code>pine</code> ne gère pas Unicode. Il ne peut pas bien
2005-06-01 11:00:28 +02:00
fonctionner dans un terminal Unicode. Si on travaille dans un terminal
Unicode, mais que l'on souhaite quand même lancer <code>pine</code>, il
2005-06-01 11:00:28 +02:00
faut absolument <a href="#luit">transformer provisoirement son terminal
en terminal <code>latin-1</code> avec <code>luit</code></a>.</p>
<div class="ens">
Les <a href="&url.tuteurs;meta/gourous.html">gourous</a>
ont fait en sorte que si on lance la commande <code>pine</code> dans
un terminal Unicode, le programme <code>luit</code> soit utilisé pour
émuler un terminal <code>latin-1</code>, ce qui fait que l'on peut quand
même utiliser normalement <code>pine</code> ; cependant, on ne
pourra pas y voir ou saisir de caractères exotiques.
2005-06-01 11:00:28 +02:00
</div>
<h2><a name="editeurs">Éditer des fichiers UTF-8</a></h2>
2005-05-29 01:33:53 +02:00
<h3>Quel éditeur utiliser ?</h3>
2005-05-29 01:33:53 +02:00
<p>Les dernières versions de <a
2005-05-29 01:33:53 +02:00
href="&url.tuteurs;unix/editeurs/vim.html">Vim</a> et <a
href="&url.tuteurs;unix/editeurs/emacs.html">Emacs</a> gèrent bien
Unicode, on peut les utiliser pour éditer des fichiers encodés en UTF-8
2005-05-29 01:33:53 +02:00
(ou dans d'autres encodages). La page <a
href="&url.tuteurs;unix/editeurs/unicode.html">taper de l'Unicode</a>
donne quelques informations sur l'utilisation de ces éditeurs. On peut
aussi utiliser <a href="http://www.yudit.org/">yudit</a> qui est un très
mauvais éditeur, mais qui est cependant extrêmement bon pour ce qui est
du rendu du texte dans beaucoup de langues (on peut lui spécifier une
fonte pour chaque alphabet, il gère très bien l'écriture de droite à
gauche, les systèmes complexes de ligatures, et il propose un large choix
de méthodes d'entrées).
2005-05-29 01:33:53 +02:00
En revanche, <code>pico</code> (et <code>nano</code>) ne
gèrent pas Unicode.
2005-05-29 01:33:53 +02:00
</p>
2005-05-29 23:10:02 +02:00
<div class="ens">
La version 21.3 d'<a href="&url.tuteurs;unix/editeurs/emacs.html">Emacs</a>
installée actuellement a quelques problèmes dans sa gestion
d'Unicode. Il vaut mieux utiliser une version encore plus récente, accessible
2005-05-29 23:10:02 +02:00
avec la commande <code>emacs-22dev</code>.
</div>
<h3>Mon éditeur n'a pas détecté que mon fichier était en UTF-8, comment
le lui dire ?</h3>
2005-05-29 01:33:53 +02:00
<p>On détecte souvent qu'un programme n'est pas conscient qu'un fichier
est encodé en UTF-8 quand chaque caractère accentué est remplacés par
deux caractères bizarres (exemple : « Caractéristique
d'Euler-Poincaré »).
Il faut alors dire à l'éditeur de reconsidérer le fichier pour le traiter
2005-05-29 01:33:53 +02:00
comme de l'UTF-8. Dans Vim, on peut taper <code>:edit ++enc=utf-8</code>
en mode commande. Dans Emacs, aller dans le menu Options, choisir Mule,
puis Set Coding System For Reverting This File Now
(<code>C-x RET r</code>),
taper <code>utf-8</code> et valider.</p>
2005-05-29 01:33:53 +02:00
<h3>Je veux enregistrer mon fichier dans un autre encodage. Comment
faire ?</h3>
2005-05-29 01:33:53 +02:00
<p>Dans Vim, la variable spécifiant l'encodage du fichier que l'on édite
2005-05-29 01:33:53 +02:00
est <code>fileencoding</code>, on peut ainsi faire <code>:set
fileencoding=latin-1</code> ou <code>set fileencoding=utf-8</code> si on
veut changer d'encodage ; cela prendra effet au prochain
2005-05-29 01:33:53 +02:00
<code>:w</code>. Dans Emacs, aller dans le menu Options, choisir Mule,
puis Set Coding System For Saving This Buffer
(<code>C-x RET f</code>), entrer le nom de
2005-05-29 01:33:53 +02:00
l'encodage et valider.</p>
<h3><a name="latex">Comment mettre en page du texte dans des langues
exotiques avec LaTeX ?</a></h3>
2005-05-29 01:33:53 +02:00
<p>Avec LaTeX, on peut mettre en page du texte écrit dans des langues
2005-05-29 01:33:53 +02:00
exotiques. Sur notre <a href="&url.tuteurs;logiciels/latex/langues.html">page
LaTeX sur les langues exotiques</a>, on trouve la marche à suivre pour
obtenir ce résultat à partir d'un fichier TeX encodé en UTF-8 (au moins
2005-05-29 01:33:53 +02:00
pour du grec, du cyrillique, du chinois et du japonais).
</p>
<p>
Des variantes de TeX/LaTeX ont été développées récemment : Omega/Lambda
puis Aleph/Lamed. Elles gèrent non plus des suites d'octets (256 valeurs
2005-05-29 01:33:53 +02:00
possibles) mais des suites de deux octets (65536 valeurs possibles). On
peut ainsi imaginer une grosse fonte virtuelle contenant les glyphes de
toutes les langues que l'on va utiliser dans un texte ; les numéros
de ces glyphes coïncideraient avec les numéros Unicode des caractères.
2005-05-29 01:33:53 +02:00
Aleph et Lamed permettent
d'appliquer des filtres au fichier source, on peut ainsi concevoir un
filtre qui prend en entrée un fichier texte encodé en UTF-8 et le
convertit en une suite de numéros Unicode. Avec une fonte virtuelle
du type évoqué précédemment, il n'y aurait plus de grosse difficulté à
2005-05-29 01:33:53 +02:00
mettre en page du texte dans des langues exotiques. Cependant, on en est
encore qu'aux balbutiements, mais cette petite cuisine a quand même pu
être utilisée pour réaliser l'<a href="&url.eleves;annuaire/">Annuaire
des élèves</a> qui contient quelques citations dans des langues
2005-05-29 01:33:53 +02:00
n'utilisant pas l'alphabet latin.
</p>
<h2><a name="x11">Programmes graphiques</a></h2>
<h3>Quels programmes graphiques gèrent Unicode ?</h3>
2005-05-29 01:33:53 +02:00
<p>En mode graphique, beaucoup de programmes sont concernés par Unicode,
de façon plus ou moins importante.
Les <a href="#terminaux">émulateurs de
terminaux</a> comme <code>xterm</code> le sont évidemment. Plus généralement,
2005-05-29 01:33:53 +02:00
beaucoup de programmes doivent afficher du texte dans des
langues exotiques, par exemple s'ils ont été conçus pour pouvoir
2005-05-29 01:33:53 +02:00
avoir des messages et des menus dans d'autres langues que l'anglais
(voir le <a href="#locales">réglage de la locale
<code>LC_MESSAGES</code></a>). Les programmes utilisant les bibliothèques
2005-05-29 01:33:53 +02:00
<a href="http://www.gtk.org/"><code>GTK+</code></a> disposent
naturellement d'un très bon support d'Unicode ; en effet, les
chaînes de caractères manipulées sont encodées en UTF-8 et la
bibliothèque Pango (faisant partie de <code>GTK+</code>) se charge
2005-05-29 01:33:53 +02:00
d'afficher convenablement le texte, ce qui n'est pas trivial du tout
(par exemple pour les langues indiennes) même si on a de bonnes fontes de
caractères.
2005-05-29 01:33:53 +02:00
</p>
<h3><a name="fontes">Quelles fontes utiliser pour afficher des caractères
Unicode ?</a></h3>
2005-05-29 01:33:53 +02:00
<p>On peut trouver des <a href="http://www.nongnu.org/freefont/">fontes
TrueType libres</a> (packagées par la plupart des distributions Linux),
elles couvrent notamment la plupart des langues utilisées en Europe
2005-05-29 01:33:53 +02:00
(alphabets latin, cyrillique et grec). Pour utiliser la fonte
<code>FreeMono</code> dans <code>xterm</code>, en supposant que les
fontes évoquées ici soient convenablement installées, on peut utiliser la
2005-05-29 01:33:53 +02:00
commande <code>uxterm -fa FreeMono</code> (pourvu que la version
de <code>xterm</code> utilisée soit suffisamment récente). Si on veut
afficher des caractères provenant d'alphabets non couverts par ces
fontes, il faut évidemment utiliser d'autres fontes... On peut regretter
2005-05-29 01:33:53 +02:00
que <code>xterm</code> ne soit actuellement pas capable d'utiliser
plusieurs fontes simultanément (on pourrait lui spécifier une fonte à
2005-05-29 01:33:53 +02:00
utiliser pour les alphabets latin, cyrillique et grec et une autre fonte
pour les idéogrammes chinois par exemple) ; en revanche,
l'émulateur de terminal <a
2005-05-29 01:33:53 +02:00
href="http://software.schmorp.de/#rxvt-unicode"><code>rxvt-unicode</code></a>
peut le faire.
</p>
<h2><a name="internet">Unicode et Internet</a></h2>
<h3><a name="html">Comment insérer un caractère
Unicode dans une page Web ?</a></h3>
<p>Il y a deux méthodes. La première consiste à utiliser des entités
HTML : si on insère la chaîne de caractères
«<code>&amp;#x203d;</code>» dans un fichier HTML, le navigateur
affiche «&#x203d;» comme vous pouvez le constater, si le navigateur
est en mesure d'afficher ce caractère Unicode, on devrait ainsi voir le
caractère U+203D INTERROBANG. Pour un caractère Unicode quelconque, il
suffit de remplacer <code>203d</code> par la représentation en
hexadécimal du numéro du caractère Unicode. On peut aussi utiliser le
numéro sous sa forme décimale : <code>&amp;#8253;</code> (&#8253;).
2005-05-29 01:33:53 +02:00
</p>
<p>
La deuxième méthode consiste à encoder tout le fichier HTML en UTF-8. On
saisit alors le caractère Unicode comme n'importe quel autre caractère
(ce qui nécessite d'avoir un <a href="#editeurs">éditeur UTF-8</a>). Cela
suppose d'avoir convenablement déclaré l'encodage du fichier HTML. Cela
peut se faire en insérant la balise suivante
2005-05-29 01:33:53 +02:00
</p>
<pre>
&lt;meta http-equiv="Content-Type" content="text/html; charset=utf-8" &gt;
2005-05-29 01:33:53 +02:00
</pre>
<p class="continue">
dans les en-têtes du fichier HTML (entre <code>&lt;meta&gt;</code> et
<code>&lt;/meta&gt;</code>). Si le fichier est en XHTML, il faut fermer
la balise <code>&lt;meta&gt;</code> :
</p>
<pre>
&lt;meta http-equiv="Content-Type" content="text/html; charset=utf-8" /&gt;
</pre>
<p class="continue">
et il est
recommandable de définir l'encodage du fichier en faisant de plus
une déclaration XML sur la première ligne du fichier :
2005-05-29 01:33:53 +02:00
</p>
<pre>
&lt;?xml version="1.0" encoding="UTF-8"?&gt;
</pre>
<p>
S'il ne s'agit d'insérer qu'une poignée de caractères exotiques, il
est sans doute plus pratique d'utiliser des entités HTML pour insérer ces
caractères. S'il y en a beaucoup, il devient commode d'utiliser la
deuxième méthode pour éditer directement le fichier HTML dans un
éditeur gérant l'encodage UTF-8. Notons que les deux méthodes ne sont pas
incompatibles, on peut mettre des entités HTML du type ci-dessus dans un
fichier HTML, quelque soit son encodage, y compris UTF-8.
2005-05-29 01:33:53 +02:00
</p>
<h3>Mon navigateur Web affiche mal mes caractères
Unicode. Que faire ?</h3>
2005-05-29 01:33:53 +02:00
<p>Certains navigateurs (comme <a
href="&url.tuteurs;logiciels/mozilla/">Mozilla</a>) permettent de
spécifier une fonte à utiliser pour tel ou tel groupe de langues. Quand
on insère du texte dans une langue exotique, on a ainsi intérêt à
déclarer la langue dans laquelle est écrit le texte, cela permet au
navigateur de choisir directement la bonne fonte à utiliser pour afficher
les caractères, au lieu de parcourir toutes les fontes existantes jusqu'à
en trouver une qui associe un glyphe au numéro Unicode voulu. Ceci peut
donner des résultats horribles : imaginons que vous ayez un texte en grec
ancien avec beaucoup d'accents et d'esprits et que la fonte par défaut ne
contienne que les caractères grecs de base (sans les accents), on risque
de se retrouver avec un mélange du plus mauvais effet entre deux fontes
de caractères, la fonte de base utilisée pour les caractères non
accentués et une autre pour les caractères plus compliqués ; si le
navigateur est prévenu dès le départ que c'est du grec ancien, il fera
2005-05-29 01:33:53 +02:00
sans doute mieux.
</p>
<p>
<!-- NDjriou: le "text-align: left;" est du bugware pour que cela
s'affiche bien chez moi dans Mozilla, sans cela, l'alignement justifié défini
2005-05-29 01:33:53 +02:00
dans tuteurs.css provoque un comportement bizarre. -->
Pour insérer le mot Hindi <a style="text-align: left;"><cite lang="hi"
2005-05-29 01:33:53 +02:00
xml:lang="hi">&#x92c;&#x93f;&#x930;&#x92f;&#x93e;&#x928;&#x940;</cite></a>
dont une transcription est « biryânî », on a utilisé le code
suivant :
2005-05-29 01:33:53 +02:00
</p>
<pre>
&lt;cite lang="hi" xml:lang="hi"&gt;&amp;#x92c;&amp;#x93f;&amp;#x930;&amp;#x92f;&amp;#x93e;&amp;#x928;&amp;#x940;&lt;/cite&gt;
</pre>
<p>
Les attributs <code>lang</code> et <code>xml:lang</code> s'appliquent à
beaucoup d'autres éléments (X)HTML, <code>&lt;p&gt;</code> et
2005-05-29 01:33:53 +02:00
<code>&lt;a&gt;</code> notamment. Sauf cas particuliers, le code de la langue
(dans l'exemple, c'est <code>hi</code>) doit être un code à deux
2005-05-29 01:33:53 +02:00
lettres figurant dans le <a
href="http://fr.wikipedia.org/wiki/ISO_639">standard ISO 639</a>.
</p>
<h3><a name="test-navigateur">Comment déterminer dans quelle mesure mon navigateur gère
Unicode ?</a></h3>
2005-05-29 01:33:53 +02:00
<p>On peut utiliser la <a
href="http://www.madore.org/~david/misc/unitest/">page de test
Unicode</a> sur le site de David A. Madore. Attention, cependant, ce
n'est pas parce que vous voyez plein de caractères exotiques disposés un
peu partout que votre navigateur gère parfaitement les langues étrangères
censément représentées sur la page, si on regarde plus attentivement
certains détails, il arrive souvent que l'on voie des bugs (problèmes
dans les fontes de caractères, support rudimentaire de certaines langues,
mélange disgracieux entre plusieurs fontes de caractères pour afficher le
2005-05-29 01:33:53 +02:00
grec, absence de certaines ligatures, etc...). </p>
<h2>Divers</h2>
<h3><a name="troll">Je voudrais mettre des accents dans mes noms de
fichiers, et ça me marche pas. Que faire ?</a></h3>
2005-05-29 01:33:53 +02:00
<p>C'est une très mauvaise idée de vouloir mettre des caractères
accentués (ou exotiques) dans les noms de fichiers. Le fait de mettre des
espaces pose déjà des problèmes, des caractères comme «/», «\» ou «:»
sont prohibés sur certains systèmes de fichiers, alors vouloir mettre
des accents, ce n'est que chercher des ennuis supplémentaires (notamment
quand on veut transférer des fichiers sur un autre ordinateur ou sur une
disquette). Bref, à éviter absolument.</p>
2005-05-29 01:33:53 +02:00
<div class="metainformation">
Auteur : Joël Riou.
<date value="from git" />
2005-05-29 01:33:53 +02:00
</div>
</body>
</html>