Prise en compte des remarques de Gro-Tsen et de Baptiste
This commit is contained in:
parent
beed5f8c38
commit
2c33045e91
1 changed files with 40 additions and 31 deletions
71
faq/utf8.tml
71
faq/utf8.tml
|
@ -8,7 +8,7 @@
|
|||
</head>
|
||||
<body>
|
||||
|
||||
<h1>Foire Aux Questions des Tuteurs : Unicode, UTF-8</h1>
|
||||
<h1>Foire Aux Questions des Tuteurs : Unicode, UTF-8</h1>
|
||||
|
||||
<p>Cette Foire Aux Questions (<a
|
||||
href="&url.tuteurs;jargon.html#FAQ">FAQ</a>) rassemble entre autres des
|
||||
|
@ -20,7 +20,7 @@ public (et aussi sous Windows).</p>
|
|||
|
||||
<h2>Généralités et théorie</h2>
|
||||
|
||||
<h3><a name="unicode">Qu'est-ce que le Standard Unicode ?</a></h3>
|
||||
<h3><a name="unicode">Qu'est-ce que le Standard Unicode ?</a></h3>
|
||||
|
||||
<p>Le <a href="http://www.unicode.org/">Standard Unicode</a> est produit
|
||||
par une organisation à but non lucratif (le Consortium Unicode) ayant
|
||||
|
@ -28,32 +28,32 @@ pour objectif d'attribuer un num
|
|||
humaine. Cette entreprise vise à une certaine universalité. Les alphabets
|
||||
de <b>beaucoup</b> de langues sont déjà inscrits dans ce standard. On y trouve
|
||||
évidemment les alphabets latins, grecs et cyrilliques (avec certaines de
|
||||
leurs variantes, par exemple, un caractère comme « œ » y figure,
|
||||
leurs variantes, par exemple, un caractère comme « œ » y figure,
|
||||
bien qu'il ne soit pas utilisé dans la plupart des autres langues
|
||||
européennes utilisant l'alphabet latin). Beaucoup de langues parlées en
|
||||
Asie figurent aussi dans le standard : des dizaines de miliers de
|
||||
Asie figurent aussi dans le standard : des dizaines de miliers de
|
||||
caractères chinois, japonais ou coréens sont définis. Le standard
|
||||
contient bien d'autres alphabets, la consultation des tableaux de
|
||||
caractères (dans la version imprimée du standard ou <a
|
||||
href="http://www.unicode.org/charts/">sur le site officiel</a>) est une
|
||||
véritable source d'émerveillement... </p>
|
||||
|
||||
<h3><a name="caractere">Qu'est-ce qu'un caractère Unicode ?</a></h3>
|
||||
<h3><a name="caractere">Qu'est-ce qu'un caractère Unicode ?</a></h3>
|
||||
|
||||
<p>Un caractère Unicode est un caractère défini dans le Standard Unicode.
|
||||
On y fait souvent référence par son numéro écrit en hexadécimal précédé
|
||||
de «U+». Par exemple, la lettre latine « a » correspond à U+0061, la lettre
|
||||
cyrillique « Ѭ » correspond à U+046C et le "DEVANAGARI OM"
|
||||
« ॐ » correspond à U+0950. Certains de ces caractères ne
|
||||
de «U+». Par exemple, la lettre latine « a » correspond à U+0061, la lettre
|
||||
cyrillique « Я » correspond à U+042F et le "DEVANAGARI OM"
|
||||
« ॐ » correspond à U+0950. Certains de ces caractères ne
|
||||
s'affichent peut-être pas correctement sur votre écran, cela dépend de
|
||||
plusieurs paramètres, nous reviendrons sur ce point dans les questions
|
||||
suivantes ; il faut cependant garder une chose à l'esprit, le Standard
|
||||
Unicode définit des listes de caractères, donne une description de chaque
|
||||
caractère (« a » est décrite par "LATIN SMALL LETTER A"), mais en aucun
|
||||
suivantes ; il faut cependant garder une chose à l'esprit, le Standard
|
||||
Unicode définit des listes de caractères, donne un nom à chaque
|
||||
caractère (pour « a », c'est "LATIN SMALL LETTER A"), mais en aucun
|
||||
cas, le glyphe devant représenter chaque caractère n'est normalisé, en
|
||||
effet, plusieurs fontes de caractères peuvent être utilisées.</p>
|
||||
|
||||
<h3><a name="utf8">Qu'est-ce que « UTF-8 » ?</a></h3>
|
||||
<h3><a name="utf8">Qu'est-ce que « UTF-8 » ?</a></h3>
|
||||
|
||||
<p>"UTF" est formé des initiales de "Unicode Transformation Format".
|
||||
Les ordinateurs stoquent et échangent leurs données le plus souvent sous
|
||||
|
@ -95,7 +95,7 @@ et les <a href="#test-navigateur">navigateurs Web</a>.
|
|||
|
||||
<h2><a name="terminaux">Terminaux Unicode</a></h2>
|
||||
|
||||
<h3>Qu'est-ce qu'un terminal Unicode ?</h3>
|
||||
<h3>Qu'est-ce qu'un terminal Unicode ?</h3>
|
||||
|
||||
<p>Un terminal (ou un émulateur de terminal) consiste en une interface
|
||||
qui permet de saisir et d'afficher du texte, divers programmes peuvent
|
||||
|
@ -124,7 +124,7 @@ chinois/japonais/cor
|
|||
d'une seule.
|
||||
</p>
|
||||
|
||||
<h3><a name="uxterm">Comment lancer un terminal Unicode ?</a></h3>
|
||||
<h3><a name="uxterm">Comment lancer un terminal Unicode ?</a></h3>
|
||||
|
||||
<p>Il existe beaucoup d'émulateurs de terminaux sous Unix, certains
|
||||
savent gérer Unicode, d'autres non. Le programme
|
||||
|
@ -157,7 +157,7 @@ Autrement dit, on lance le programme <code>xxd</code> qui va servir
|
|||
afficher la représentation en hexadécimal du texte que l'on va
|
||||
saisir : on saisit un e accent aigu avec la touche compose,
|
||||
on valide et on ferme avec <code><Control-D></code>. Si on se trouve dans
|
||||
un terminal <code>latin-1</code>, on va voir :
|
||||
un terminal <code>latin-1</code>, on va voir :
|
||||
</p>
|
||||
<pre><span class="prompt">clipper ~ $</span> xxd
|
||||
é
|
||||
|
@ -343,8 +343,9 @@ d'Euler-Poincaré
|
|||
Il faut alors dire à l'éditeur de reconsidérer le fichier pour le traiter
|
||||
comme de l'UTF-8. Dans Vim, on peut taper <code>:edit ++enc=utf-8</code>
|
||||
en mode commande. Dans Emacs, aller dans le menu Options, choisir Mule,
|
||||
puis Set Coding System For Reverting This File Now, taper
|
||||
<code>utf-8</code> et valider.</p>
|
||||
puis Set Coding System For Reverting This File Now
|
||||
(<code>C-x RET r</code>),
|
||||
taper <code>utf-8</code> et valider.</p>
|
||||
|
||||
<h3>Je veux enregistrer mon fichier dans un autre encodage. Comment
|
||||
faire ?</h3>
|
||||
|
@ -354,7 +355,8 @@ est <code>fileencoding</code>, on peut ainsi faire <code>:set
|
|||
fileencoding=latin-1</code> ou <code>set fileencoding=utf-8</code> si on
|
||||
veut changer d'encodage ; cela prendra effet au prochain
|
||||
<code>:w</code>. Dans Emacs, aller dans le menu Options, choisir Mule,
|
||||
puis Set Coding System For Saving This Buffer, entrer le nom de
|
||||
puis Set Coding System For Saving This Buffer
|
||||
(<code>C-x RET f</code>), entrer le nom de
|
||||
l'encodage et valider.</p>
|
||||
|
||||
<h3><a name="latex">Comment mettre en page du texte dans des langues
|
||||
|
@ -368,7 +370,7 @@ pour du grec, du cyrillique, du chinois et du japonais).
|
|||
</p>
|
||||
|
||||
<p>
|
||||
Des variantes de TeX/LaTeX ont été développées récemment : Omega/Lambda
|
||||
Des variantes de TeX/LaTeX ont été développées récemment : Omega/Lambda
|
||||
puis Aleph/Lamed. Elles gèrent non plus des suites d'octets (256 valeurs
|
||||
possibles) mais des suites de deux octets (65536 valeurs possibles). On
|
||||
peut ainsi imaginer une grosse fonte virtuelle contenant les glyphes de
|
||||
|
@ -433,7 +435,7 @@ peut le faire.
|
|||
<h2><a name="internet">Unicode et Internet</a></h2>
|
||||
|
||||
<h3><a name="html">Comment insérer un caractère
|
||||
Unicode dans une page Web ?</a></h3>
|
||||
Unicode dans une page Web ?</a></h3>
|
||||
|
||||
<p>Il y a deux méthodes. La première consiste à utiliser des entités
|
||||
HTML : si on insère la chaîne de caractères
|
||||
|
@ -443,7 +445,7 @@ est en mesure d'afficher ce caract
|
|||
caractère U+203D INTERROBANG. Pour un caractère Unicode quelconque, il
|
||||
suffit de remplacer <code>203d</code> par la représentation en
|
||||
hexadécimal du numéro du caractère Unicode. On peut aussi utiliser le
|
||||
numéro sous sa forme décimale : <code>&#8253;</code> (‽).
|
||||
numéro sous sa forme décimale : <code>&#8253;</code> (‽).
|
||||
</p>
|
||||
|
||||
<p>
|
||||
|
@ -454,13 +456,20 @@ suppose d'avoir convenablement d
|
|||
peut se faire en insérant la balise suivante
|
||||
</p>
|
||||
<pre>
|
||||
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
|
||||
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" >
|
||||
</pre>
|
||||
<p class="continue">
|
||||
dans les en-têtes du fichier HTML (entre <code><meta></code> et
|
||||
<code></meta></code>). Si le fichier est en XHTML, il est
|
||||
<code></meta></code>). Si le fichier est en XHTML, il faut fermer
|
||||
la balise <code><meta></code> :
|
||||
</p>
|
||||
<pre>
|
||||
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
|
||||
</pre>
|
||||
<p class="continue">
|
||||
et il est
|
||||
recommandable de définir l'encodage du fichier en faisant de plus
|
||||
une déclaration XML en tête de fichier :
|
||||
une déclaration XML sur la première ligne du fichier :
|
||||
</p>
|
||||
<pre>
|
||||
<?xml version="1.0" encoding="UTF-8"?>
|
||||
|
@ -473,11 +482,11 @@ caract
|
|||
deuxième méthode pour éditer directement le fichier HTML dans un
|
||||
éditeur gérant l'encodage UTF-8. Notons que les deux méthodes ne sont pas
|
||||
incompatibles, on peut mettre des entités HTML du type ci-dessus dans un
|
||||
fichier HTML encodé en UTF-8.
|
||||
fichier HTML, quelque soit son encodage, y compris UTF-8.
|
||||
</p>
|
||||
|
||||
<h3>Mon navigateur Web affiche mal mes caractères
|
||||
Unicode. Que faire ?</h3>
|
||||
Unicode. Que faire ?</h3>
|
||||
|
||||
<p>Certains navigateurs (comme <a
|
||||
href="&url.tuteurs;logiciels/mozilla/">Mozilla</a>) permettent de
|
||||
|
@ -487,7 +496,7 @@ d
|
|||
navigateur de choisir directement la bonne fonte à utiliser pour afficher
|
||||
les caractères, au lieu de parcourir toutes les fontes existantes jusqu'à
|
||||
en trouver une qui associe un glyphe au numéro Unicode voulu. Ceci peut
|
||||
donner des résultats horribles : imaginons que vous ayez un texte en grec
|
||||
donner des résultats horribles : imaginons que vous ayez un texte en grec
|
||||
ancien avec beaucoup d'accents et d'esprits et que la fonte par défaut ne
|
||||
contienne que les caractères grecs de base (sans les accents), on risque
|
||||
de se retrouver avec un mélange du plus mauvais effet entre deux fontes
|
||||
|
@ -504,7 +513,7 @@ dans tuteurs.css provoque un comportement bizarre. -->
|
|||
Pour insérer le mot Hindi <a style="text-align: left;"><cite lang="hi"
|
||||
xml:lang="hi">बिरयानी</cite></a>
|
||||
dont une transcription est « biryânî », on a utilisé le code
|
||||
suivant :
|
||||
suivant :
|
||||
</p>
|
||||
<pre>
|
||||
<cite lang="hi" xml:lang="hi">&#x92c;&#x93f;&#x930;&#x92f;&#x93e;&#x928;&#x940;</cite>
|
||||
|
@ -535,7 +544,7 @@ grec, absence de certaines ligatures, etc...). </p>
|
|||
<h2>Divers</h2>
|
||||
|
||||
<h3><a name="troll">Je voudrais mettre des accents dans mes noms de
|
||||
fichiers, et ça me marche pas. Que faire ?</a></h3>
|
||||
fichiers, et ça me marche pas. Que faire ?</a></h3>
|
||||
|
||||
<p>C'est une très mauvaise idée de vouloir mettre des caractères
|
||||
accentués (ou exotiques) dans les noms de fichiers. Le fait de mettre des
|
||||
|
@ -546,8 +555,8 @@ quand on veut transf
|
|||
disquette). Bref, à éviter absolument.</p>
|
||||
|
||||
<div class="metainformation">
|
||||
Auteur : Joël Riou.
|
||||
Dernière modification le <date value="$Date: 2005-05-29 00:03:35 $" />.
|
||||
Auteur : Joël Riou.
|
||||
Dernière modification le <date value="$Date: 2005-05-29 09:07:50 $" />.
|
||||
</div>
|
||||
|
||||
</body>
|
||||
|
|
Loading…
Reference in a new issue